O RTX 4090 e o 5090s podem igualar — e às vezes superar — o A100

As GPUs de consumo não servem mais apenas para jogos. Veja o que nossos testes mostram.

‍

As GPUs de consumo estão se atualizando. Nossos benchmarks mais recentes mostram que o RTX 5090 — e até mesmo o 4090 — pode igualar ou superar um A100 para inferência de LLM de pequeno e médio porte. Respostas mais rápidas, maior taxa de transferência e custos mais baixos os tornam uma opção séria para qualquer pessoa que esteja criando ou escalando cargas de trabalho de IA.

---

O A100 sempre foi o padrão-ouro para inferência de alto desempenho. Mas em nossos benchmarks mais recentes, o novo RTX 5090 — e até mesmo o antigo 4090 — estão provando que as GPUs de nível de consumo podem se manter. Em alguns casos, eles superam o A100 e custam muito menos.

Executamos testes de inferência em um modelo 8B LLama 3.1 Instruct usando a suíte de benchmark vLLM e o conjunto de dados ShareGpt. O objetivo era simples: ver como o 4090 e o 5090 se comparam a um A100 para implantações de LLM de pequeno a médio porte, tanto em cenários de baixa carga (interativa) quanto de alta carga (alta taxa de transferência).

A versão curta

‍

O RTX 5090 superou o A100 em latência e ligeiramente em taxa de transferência nesta configuração.
- Latência (1 rps): 5090, corte TTFT para ~45 ms vs ~296 ms no A100 (enorme para aplicativos interativos) e reduziu a latência de ponta a ponta em ~ 14%.
- Rendimento (carga pesada): 5090 entregues ~3802 tokens/s vs ~ 3748 tokens/s na A100 (~ 1,4% maior).
Dois 5090s praticamente dobraram a taxa de transferência para ~ 7604 tokens/s, sobre ~2× um A100 neste teste.
O RTX 4090 ficou atrás do A100 sobre latência e taxa de transferência aqui. É forte para sua classe, mas não substitui o A100 nessas configurações.

Se você estiver servindo modelos pequenos a médios (como um 8B) e você se preocupa com primeiro token rápido e tokens estáveis (s), um único 5090 já encontra ou ultrapassa um A100 em nossas corridas. Se você escalar com dois anos 5090, você pode limpar ~2× o (s) token (s) de um A100 solitário, mantendo os custos de hardware flexíveis.

Isso não torna as GPUs de datacenter obsoletas. A VRAM ainda domina para modelos maiores e contextos mais longos, os A100s brilham onde o espaço livre de memória e o particionamento de várias instâncias são importantes. Mas para muitas cargas de trabalho de produção de 8B, GPUs de consumo bem configuradas são uma alternativa prática com ganhos reais, especialmente em TTFT onde vive a percepção do usuário.

Continue lendo para obter mais detalhes sobre o benchmark.

Objetivos de referência

‍

Avalie a latência e a taxa de transferência em diferentes classes de GPU.
Determine se uma ou várias GPUs de nível de consumo podem superar ou igualar a A100 para modelos pequenos e médios.
Forneça resultados verificáveis para a tomada de decisões de infraestrutura (estratégias de implantação econômicas).

‍

Configuração estática

Parameter	Value
Context Length	8192 tokens
Output Length	512 tokens
Model	meta-llama/Meta-Llama-3.1-8B-Instruct
Precision	BF16
Batch Size (auto)	Based on GPU memory
Dataset	82.6 TFLOPs
Benchmark Tool	450 W

‍

Cenários de teste

‍

1. Carga moderada (teste de latência)

Attribute	Value
Request Rate	1 req/s
Number of Prompts	100
Goal	Capture average latency (TTFT, E2E)

2. Carga extrema (teste de produtividade)

Attribute	Value
Request Rate	1100 req/s
Number of Prompts	1500
Goal	Measure maximum output token throughput (tokens/sec)

‍

Resultados e análises

‍

Cenário 1 — Latência sob carga moderada (1 req/s)

GPU	Avg ITL (ms)	Avg TPOT (ms)	Avg TTFT (ms)	Avg E2E latency (ms)	Notes
RTX 4090	19	19	349.9	9759.07
RTX 5090	12.14	12.14	45.41	6058.57	E2E: 14% faster than A100. TTFT: 84% faster
A100	13.25	13.25	296.44	7080.9

Todas as GPUs lidam com cenários de carga moderada de forma eficaz. No entanto, o RTX 5090 supera significativamente todas as outras GPUs testadas, incluindo o A100 topo de linha, em todas as categorias de latência:

O RTX 5090 entregue Latência de ponta a ponta 14% mais rápida do que o A100.

O tempo até o primeiro token foi onde ele realmente brilhou — 84% mais rápido do que o A100. Isso é muito importante para chatbots, assistentes em tempo real e qualquer coisa em que a capacidade de resposta seja importante.

O 4090 ficou perto do desempenho do A100, tornando-o uma alternativa forte e econômica.

‍

Cenário 2 — Rendimento sob carga extrema (1100 req/s)

GPU	Avg Token Throughput (Tokens/sec)	Sustained RPS
RTX 4090	737.65	1.47
RTX 5090	3802.09	7.58
A100	3748.16	7.46

O RTX 5090 superou o A100 em produtividade bruta, atingindo 3.802 tokens/seg versus 3.748 do A100.

O emparelhamento de dois 5090s dobrou a taxa de transferência para 7.604 tokens/seg, mais de 100% acima do A100. E você ainda gasta menos do que em um único cartão de datacenter.

‍

O que isso significa para você

‍

Em cenários de inferência de baixa e alta carga com modelo de tamanho médio (8B), GPUs de alto nível de consumo demonstram desempenho comparável ou superior para a GPU A100 de nível de data center.

Abaixo carga moderada (1 req/s), o RTX 4090 oferece latências próximas às performances do A100, e o RTX 5090 oferece desempenho superior.
Abaixo carga extrema (1100 req/s), o RTX 5090 alcança taxa de transferência um pouco maior do que o A100, enquanto se espera que dois RTX 5090s forneçam ~ 100% mais taxa de transferência de tokens, respectivamente.

Embora o A100 continue sendo vantajoso para determinadas cargas de trabalho que exigem maior VRAM, esses resultados mostram que, para modelos de porta média, alguns As GPUs de nível de consumo são alternativas viáveis, especialmente quando custo e escalabilidade são considerações fundamentais.

Se você estiver implantando LLMs de pequeno a médio porte, um 5090 bem configurado — ou um pequeno cluster deles — pode rivalizar com o hardware de nível de data center. Você negociará um pouco de espaço livre de VRAM, mas obterá grandes opções de economia de custos e escalabilidade. Para startups, equipes de pesquisa ou qualquer pessoa que precise de alto desempenho sem usar hardware caro, as GPUs de consumo não são mais um compromisso.

Quando os estudantes de IA superam a sandbox: como a DSTI expandiu seu acesso à GPU com a Hivenet

A DSTI School of Engineering fez parceria com a Hivenet para oferecer aos alunos de mestrado um acesso mais consistente à computação de GPU europeia acessível para projetos reais de aprendizado profundo.