Las RTX 4090 y 5090 pueden igualar (y a veces superar) a la A100

Las GPU de consumo ya no son solo para jugar. Esto es lo que muestran nuestras pruebas.

‍

Las GPU de consumo se están poniendo al día. Nuestros análisis de rendimiento más recientes muestran que la RTX 5090, e incluso la 4090, pueden igualar o superar a una A100 en cuanto a inferencias de LLM pequeñas y medianas. Las respuestas más rápidas, el mayor rendimiento y los costos más bajos las convierten en una opción importante para cualquiera que cree o escale cargas de trabajo de IA.

---

El A100 ha sido durante mucho tiempo el estándar de referencia para la inferencia de alto rendimiento. Sin embargo, en nuestros últimos análisis comparativos, la nueva RTX 5090 (e incluso la antigua 4090) demuestran que las GPU para consumidores pueden valer por sí mismas. En algunos casos, superan a la A100 y cuestan mucho menos.

Realizamos pruebas de inferencia en un modelo LlAMA 3.1 Instruct de 8B utilizando el conjunto de pruebas de referencia vLLM y el conjunto de datos ShareGPT. El objetivo era simple: ver cómo los modelos 4090 y 5090 se comparan con los modelos A100 para despliegues de LLM pequeños y medianos, tanto en escenarios de carga baja (interactivos) como de carga alta (alto rendimiento).

La versión corta

‍

La RTX 5090 superó a la A100 en latencia y ligeramente en rendimiento en esta configuración.
- Latencia (1 rps): corte 50/90 TTFT a ~45 ms contra ~296 ms en la A100 (ideal para aplicaciones interactivas) y redujo la latencia de extremo a extremo en ~ 14%.
- Rendimiento (carga pesada): 5090 entregados ~3802 tokens/s contra ~3748 tokens/s en A100 (~ 1.4% más).
Dos 5090 prácticamente duplicaron el rendimiento a ~7604 tokens/s, acerca de ~2× un A100 en esta prueba.
La RTX 4090 siguió a la A100 tanto en latencia como en rendimiento aquí. Es fuerte para su clase, pero no es un sustituto del A100 en estos ajustes.

Si estás sirviendo modelos pequeños y medianos (como un 8B) y te importa primer token rápido y tokens/s permanentes/s, un sencillo 5090 ya se encuentra o supera un A100 en nuestras carreras. Si escalas con dos 5090s, puedes borrar ~2× los tokens de un A100 solitario y, al mismo tiempo, se mantienen flexibles los costos de hardware.

Eso no hace que las GPU de los centros de datos queden obsoletas. La VRAM sigue gobernando para modelos más grandes y contextos más largos, y los A100 brillan cuando el espacio de memoria y la partición de varias instancias son importantes. Sin embargo, para muchas cargas de trabajo de producción de 8 000 millones de dólares, Las GPU de consumo bien configuradas son una alternativa práctica con beneficios en el mundo real, especialmente en TTFT donde vive la percepción del usuario.

Siga leyendo para obtener más información sobre el índice de referencia.

Objetivos de referencia

‍

Evalúe la latencia y el rendimiento en diferentes clases de GPU.
Determina si una o varias GPU para consumidores pueden superar o igualar a la A100 para modelos pequeños y medianos.
Proporcione resultados verificables para la toma de decisiones sobre infraestructura (estrategias de implementación rentables).

‍

Configuración estática

Parameter	Value
Context Length	8192 tokens
Output Length	512 tokens
Model	meta-llama/Meta-Llama-3.1-8B-Instruct
Precision	BF16
Batch Size (auto)	Based on GPU memory
Dataset	82.6 TFLOPs
Benchmark Tool	450 W

‍

Escenarios de prueba

‍

1. Carga moderada (prueba de latencia)

Attribute	Value
Request Rate	1 req/s
Number of Prompts	100
Goal	Capture average latency (TTFT, E2E)

2. Carga extrema (prueba de rendimiento)

Attribute	Value
Request Rate	1100 req/s
Number of Prompts	1500
Goal	Measure maximum output token throughput (tokens/sec)

‍

Resultados y análisis

‍

Escenario 1: Latencia bajo carga moderada (1 requerimiento por segundo)

GPU	Avg ITL (ms)	Avg TPOT (ms)	Avg TTFT (ms)	Avg E2E latency (ms)	Notes
RTX 4090	19	19	349.9	9759.07
RTX 5090	12.14	12.14	45.41	6058.57	E2E: 14% faster than A100. TTFT: 84% faster
A100	13.25	13.25	296.44	7080.9

Todas las GPU gestionan los escenarios de carga moderada de forma eficaz. Sin embargo, la RTX 5090 supera significativamente a todas las demás GPU probadas, incluido el A100 de gama alta, en todas las categorías de latencia:

La RTX 5090 entregó Latencia de extremo a extremo un 14% que la A100.

El Time-to-First-Token fue donde realmente brilló: 84% más rápida que la A100. Esto es muy importante para los chatbots, los asistentes en tiempo real y cualquier cosa en la que la capacidad de respuesta sea importante.

El 4090 se acercó al rendimiento del A100, lo que lo convirtió en una alternativa sólida y económica.

‍

Escenario 2: Rendimiento en condiciones de carga extrema (1100 solicitudes/s)

GPU	Avg Token Throughput (Tokens/sec)	Sustained RPS
RTX 4090	737.65	1.47
RTX 5090	3802.09	7.58
A100	3748.16	7.46

La RTX 5090 superó a la A100 en rendimiento bruto, alcanzando 3.802 tokens/seg frente a los 3.748 del A100.

La combinación de dos 5090 duplicó el rendimiento para 7.604 tokens/seg, más de un 100% por encima de la A100. Y sigue gastando menos que en una sola tarjeta de centro de datos.

‍

Qué significa esto para ti

‍

En escenarios de inferencia de carga baja y alta con un modelo de tamaño mediano (8B), las GPU de gama alta para consumidores demuestran rendimiento comparable o superior a la GPU para centros de datos A100.

Bajo carga moderada (1 requerimiento), la RTX 4090 ofrece latencias cercanas a las prestaciones del A100, y la RTX 5090 ofrece un rendimiento superior.
Bajo carga extrema (1100 requeridos/s), la RTX 5090 logra rendimiento ligeramente superior que la A100, mientras que se espera que la doble RTX 5090 entregue ~ 100% más de rendimiento de fichas, respectivamente.

Si bien la A100 sigue siendo ventajosa para ciertas cargas de trabajo que requieren una VRAM más grande, estos resultados muestran que, para los modelos de tamaño mediano, algunos Las GPU para el consumidor son alternativas viables, especialmente cuando costo y escalabilidad son consideraciones clave.

Si está implementando LLM de tamaño pequeño a mediano, un 5090 bien configurado (o un clúster pequeño de ellos) puede competir con el hardware de los centros de datos. Cambiará parte del margen de ampliación de la VRAM, pero obtendrá importantes ahorros de costos y opciones de escalabilidad. Para las empresas emergentes, los equipos de investigación o cualquier persona que necesite un alto rendimiento sin recurrir a un hardware caro, las GPU de consumo ya no suponen un compromiso.

Cuando los estudiantes de IA superan el entorno limitado: cómo DSTI amplió su acceso a la GPU con Hivenet

La Escuela de Ingeniería DSTI se asoció con Hivenet para ofrecer a los estudiantes de máster un acceso más uniforme a una computación GPU europea asequible para proyectos reales de aprendizaje profundo.