O RTX 5090s agora está ativo no Compute

O próximo degrau na escada da GPU

Se você está executando trabalhos de IA, já sabe o quanto sua escolha de hardware molda o que é possível e quanto custa. É por isso que adicionamos a NVIDIA RTX 5090 ao Compute. Mais velocidade, menos espera e um preço justo. Vamos direto aos números.

‍

Por que o 5090 se junta à programação

Quando lançamos na década de 4090, isso resolveu um grande problema: GPUs de data center como a A100 eram impossíveis de obter ou eram muito caras. O 4090 acabou sendo o ponto ideal para a maioria das cargas de trabalho de inferência e IA do LLM.

Mas nossos usuários nos impulsionaram ainda mais. As equipes queriam uma inferência mais rápida, melhor escalabilidade e a opção de “apostar tudo” sem gastar energia. Quando o primeiro lote de 5090s chegou, nós os testamos e abrimos uma região totalmente nova (Emirados Árabes Unidos 2) para que você pudesse ter acesso imediatamente.

‍

Destaques da Benchmark em um piscar de olhos

Executamos testes lado a lado usando cargas de trabalho reais do LLM. Veja o que se destaca:

5090 cortes de ponta a ponta latência em até 9,6 vezes em comparação com o 4090, e mais do que duplica a velocidade do A100.
Em cargas elevadas, o 5090 oferece quase 7 vezes mais produtividade do 4090 e mais de 2,5 vezes a taxa de transferência do A100.
Cada 5090 usa energia mais sabiamente, oferecendo mais de três vezes o desempenho por watt em comparação com o 4090.

‍

Average and Peak Token throughput in Compute with Hivenet

‍

Se você estiver executando LLMs de pequeno a médio porte, o 5090 agora é a opção mais rápida e econômica em computação.

‍

Como executamos os testes

Não nos escondemos atrás de benchmarks que ninguém consegue reproduzir. Aqui está nossa configuração:

Modelo: meta-lama 3.1-8B-Instruct
Tamanho do lote: Contexto 8.192; saída 512 tokens
Motor: VllM 0.8.3 (benchmark_serving.py)
Cenários:
1. Carga moderada (1 req/s, 100 prompts)
2. Carga extrema (1.100 req/s, 1.500 prompts)
Regiões: França, Emirados Árabes Unidos 2

Você pode conferir os resultados detalhados em nosso PDF de referência. Se você quiser ver mais de perto as configurações de teste ou executar suas próprias comparações, basta perguntar. Teremos prazer em orientar você nos detalhes.

‍

O que isso significa para sua carga de trabalho

Com o 5090s, qualquer pessoa que execute LLMs de até 13 bilhões de parâmetros pode obter o desempenho do data center, sem uma conta do data center ou uma lista de espera de seis meses. Os cartões são dimensionados linearmente, para que você possa agrupá-los e lidar com cargas de trabalho pesadas ou criar um para experimentos rápidos.

Para a maioria dos trabalhos de inferência, você verá menor latência e melhor preço/desempenho do que qualquer opção de computação anterior.
O faturamento por segundo mantém os custos honestos, sem aumento e sem surpresas.

‍

Quando 4090s ou A100s ainda vencem

Nem todo trabalho precisa do maior martelo. É aqui que o 4090 ou o A100 podem ser sua melhor escolha:

Se você está treinando com modelos enormes e precisa de mais VRAM do que o 5090 oferece, os nós A100 ainda fazem sentido.
Para trabalhos com grandes comprimentos de sequência ou ajustes finos em placas, os A100s brilham.
O 4090 ainda é um valor incrível para projetos menores ou orçamentos apertados.

Ainda assim, achamos que, para a maioria dos casos de uso, os anos 4090 e agora 5090 são uma escolha melhor do que os A100s. Confira nossa postagem anterior Por que mais desenvolvedores estão escolhendo o RTX 4090 em vez do A100 para mais.

‍

Como iniciar um 5090 no Compute

Está mais simples do que nunca:

Faça login no seu Computar painel de controle
Escolha uma região
Selecione GPU (5090) como seu hardware
Escolha seu modelo (ou crie o seu próprio)
Clique Lançamento

‍

Screenshot from the Compute with Hivenet console

‍

Você estará pronto e funcionando em menos de um minuto.

‍

Olhando para o futuro

Já estamos planejando mais regiões com capacidade de 5090 e estamos testando modelos de várias GPUs. Se você tiver feedback ou quiser um recurso, entre em contato conosco. A computação está sempre evoluindo com você.

Quando os estudantes de IA superam a sandbox: como a DSTI expandiu seu acesso à GPU com a Hivenet

A DSTI School of Engineering fez parceria com a Hivenet para oferecer aos alunos de mestrado um acesso mais consistente à computação de GPU europeia acessível para projetos reais de aprendizado profundo.