← Blog
August 4, 2025

O RTX 4090 e o 5090s podem igualar — e às vezes superar — o A100

As GPUs de consumo não servem mais apenas para jogos. Veja o que nossos testes mostram.

As GPUs de consumo estão se atualizando. Nossos benchmarks mais recentes mostram que o RTX 5090 — e até mesmo o 4090 — pode igualar ou superar um A100 para inferência de LLM de pequeno e médio porte. Respostas mais rápidas, maior taxa de transferência e custos mais baixos os tornam uma opção séria para qualquer pessoa que esteja criando ou escalando cargas de trabalho de IA.

---

O A100 sempre foi o padrão-ouro para inferência de alto desempenho. Mas em nossos benchmarks mais recentes, o novo RTX 5090 — e até mesmo o antigo 4090 — estão provando que as GPUs de nível de consumo podem se manter. Em alguns casos, eles superam o A100 e custam muito menos.

Executamos testes de inferência em um modelo 8B LLama 3.1 Instruct usando a suíte de benchmark vLLM e o conjunto de dados ShareGpt. O objetivo era simples: ver como o 4090 e o 5090 se comparam a um A100 para implantações de LLM de pequeno a médio porte, tanto em cenários de baixa carga (interativa) quanto de alta carga (alta taxa de transferência).

A versão curta

  • O RTX 5090 superou o A100 em latência e ligeiramente em taxa de transferência nesta configuração.
    • Latência (1 rps): 5090, corte TTFT para ~45 ms vs ~296 ms no A100 (enorme para aplicativos interativos) e reduziu a latência de ponta a ponta em ~ 14%.
    • Rendimento (carga pesada): 5090 entregues ~3802 tokens/s vs ~ 3748 tokens/s na A100 (~ 1,4% maior).
  • Dois 5090s praticamente dobraram a taxa de transferência para ~ 7604 tokens/s, sobre ~2× um A100 neste teste.
  • O RTX 4090 ficou atrás do A100 sobre latência e taxa de transferência aqui. É forte para sua classe, mas não substitui o A100 nessas configurações.

Se você estiver servindo modelos pequenos a médios (como um 8B) e você se preocupa com primeiro token rápido e tokens estáveis (s), um único 5090 já encontra ou ultrapassa um A100 em nossas corridas. Se você escalar com dois anos 5090, você pode limpar ~2× o (s) token (s) de um A100 solitário, mantendo os custos de hardware flexíveis.

Isso não torna as GPUs de datacenter obsoletas. A VRAM ainda domina para modelos maiores e contextos mais longos, os A100s brilham onde o espaço livre de memória e o particionamento de várias instâncias são importantes. Mas para muitas cargas de trabalho de produção de 8B, GPUs de consumo bem configuradas são uma alternativa prática com ganhos reais, especialmente em TTFT onde vive a percepção do usuário.

Continue lendo para obter mais detalhes sobre o benchmark.

Objetivos de referência

  • Avalie a latência e a taxa de transferência em diferentes classes de GPU.
  • Determine se uma ou várias GPUs de nível de consumo podem superar ou igualar a A100 para modelos pequenos e médios.
  • Forneça resultados verificáveis para a tomada de decisões de infraestrutura (estratégias de implantação econômicas).

Configuração estática

Parameter Value
Context Length 8192 tokens
Output Length 512 tokens
Model meta-llama/Meta-Llama-3.1-8B-Instruct
Precision BF16
Batch Size (auto) Based on GPU memory
Dataset 82.6 TFLOPs
Benchmark Tool 450 W

Cenários de teste

1. Carga moderada (teste de latência)

Attribute Value
Request Rate 1 req/s
Number of Prompts 100
Goal Capture average latency (TTFT, E2E)

2. Carga extrema (teste de produtividade)

Attribute Value
Request Rate 1100 req/s
Number of Prompts 1500
Goal Measure maximum output token throughput (tokens/sec)

Resultados e análises

Cenário 1 — Latência sob carga moderada (1 req/s)

GPU Avg ITL (ms) Avg TPOT (ms) Avg TTFT (ms) Avg E2E latency (ms) Notes
RTX 4090 19 19 349.9 9759.07
RTX 5090 12.14 12.14 45.41 6058.57 E2E: 14% faster than A100. TTFT: 84% faster
A100 13.25 13.25 296.44 7080.9

Todas as GPUs lidam com cenários de carga moderada de forma eficaz. No entanto, o RTX 5090 supera significativamente todas as outras GPUs testadas, incluindo o A100 topo de linha, em todas as categorias de latência:

  • O RTX 5090 entregue Latência de ponta a ponta 14% mais rápida do que o A100.
  • O tempo até o primeiro token foi onde ele realmente brilhou — 84% mais rápido do que o A100. Isso é muito importante para chatbots, assistentes em tempo real e qualquer coisa em que a capacidade de resposta seja importante.
  • O 4090 ficou perto do desempenho do A100, tornando-o uma alternativa forte e econômica.
  • Cenário 2 — Rendimento sob carga extrema (1100 req/s)

    GPU Avg Token Throughput (Tokens/sec) Sustained RPS
    RTX 4090 737.65 1.47
    RTX 5090 3802.09 7.58
    A100 3748.16 7.46
  • O RTX 5090 superou o A100 em produtividade bruta, atingindo 3.802 tokens/seg versus 3.748 do A100.
  • O emparelhamento de dois 5090s dobrou a taxa de transferência para 7.604 tokens/seg, mais de 100% acima do A100. E você ainda gasta menos do que em um único cartão de datacenter.
  • O que isso significa para você

    Em cenários de inferência de baixa e alta carga com modelo de tamanho médio (8B), GPUs de alto nível de consumo demonstram desempenho comparável ou superior para a GPU A100 de nível de data center.

    • Abaixo carga moderada (1 req/s), o RTX 4090 oferece latências próximas às performances do A100, e o RTX 5090 oferece desempenho superior.
    • Abaixo carga extrema (1100 req/s), o RTX 5090 alcança taxa de transferência um pouco maior do que o A100, enquanto se espera que dois RTX 5090s forneçam ~ 100% mais taxa de transferência de tokens, respectivamente.

    Embora o A100 continue sendo vantajoso para determinadas cargas de trabalho que exigem maior VRAM, esses resultados mostram que, para modelos de porta média, alguns As GPUs de nível de consumo são alternativas viáveis, especialmente quando custo e escalabilidade são considerações fundamentais.

    Se você estiver implantando LLMs de pequeno a médio porte, um 5090 bem configurado — ou um pequeno cluster deles — pode rivalizar com o hardware de nível de data center. Você negociará um pouco de espaço livre de VRAM, mas obterá grandes opções de economia de custos e escalabilidade. Para startups, equipes de pesquisa ou qualquer pessoa que precise de alto desempenho sem usar hardware caro, as GPUs de consumo não são mais um compromisso.