¿Qué GPU deberías usar para la inferencia de LLM?

La mayoría de los problemas de inferencia son problemas de memoria disfrazado. Si el modelo y su caché se ajustan al margen de maniobra, puede procesar las solicitudes por lotes y mantener una latencia constante. Si la memoria es escasa, todo se ralentiza. Comience con la VRAM, luego piense en la velocidad y el precio.

La arquitectura de GPU subyacente desempeña un papel crucial a la hora de determinar el rendimiento de la inferencia y la idoneidad del hardware para la implementación de LLM, ya que las diferencias arquitectónicas afectan a la eficiencia y la escalabilidad de los modelos grandes.

En Calcular, puedes lanzar un servidor vLLM en Compute en ajustes preestablecidos de una o varias GPU, incluidas las opciones de clase 4090 y clase 5090 cuando estén disponibles. Las plataformas en la nube, como Compute, se utilizan cada vez más para la implementación de la LLM debido al acceso flexible a las GPU de alto rendimiento. Elija las regiones de Francia o los Emiratos Árabes Unidos para mantener los terminales cerca de los usuarios.

Un camino rápido para tomar decisiones

Elige el modelo más pequeño que resuelva la tarea. Prueba con 7B antes que con 13B. Usa evaluaciones, no vibraciones.
Estime el contexto y los resultados con honestidad. Las largas charlas y las grandes indicaciones consumen memoria.
Objetivo: concurrencia. ¿Cuántos usuarios a la vez tienen un TTFT/TPS aceptable?
Elija VRAM para adaptarse al modelo, la caché y el lote. Tenga en cuenta la cantidad de memoria de la GPU y la cantidad de memoria que se requieren para el tamaño específico del modelo y los requisitos de lote: los modelos más grandes y los tamaños de lote más altos necesitan más memoria. Si estás cerca del límite, sube de nivel, utiliza la cuantificación o considera utilizar formatos de menor precisión (como FP8 o int8) como contrapartida para optimizar el uso y el rendimiento de la memoria.
Elige entre una o varias GPU. Opte por varios cuando una tarjeta no pueda satisfacer las necesidades de memoria o rendimiento. La optimización de las configuraciones de varias GPU puede mejorar el rendimiento, pero hay ventajas y desventajas entre las configuraciones de una o varias GPU, como el aumento de la complejidad y el costo.
Coloque el punto final cerca de los usuarios. La latencia regional es más importante que las microoptimizaciones.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Hoja de referencia de modelo a VRAM (aproximado)

Estos son rangos aproximados para solo pesas. Todavía necesitas espacio libre para el Caché KV y procesamiento por lotes.

7B, FP16: ~14-16 GB
7B, int8: ~7—9 GB
7B, int4: ~4-6 GB
13B, FP16: ~26 A 28 GB
13B, int8: ~13-16 GB
13B, int4: ~7—9 GB

La prestación de servicios de LLM (modelos de lenguaje de gran tamaño) de manera eficiente requiere una planificación cuidadosa de la asignación de memoria de la GPU tanto para el modelo como para su caché, ya que la inferencia de LLM es exigente desde el punto de vista computacional y se beneficia de un hardware especializado.

Añada margen de caché: los contextos más largos y una mayor concurrencia pueden duplicar o triplicar el conjunto de trabajo. Si la VRAM tiene una carga superior al 90%, es de esperar que el TTFT aumente.

GPU única o GPU múltiple

GPU única es más simple y, a menudo, más rápido para los modelos de la clase 7B con un contexto moderado. Empieza aquí si puedes.

Multi-GPU ayuda cuando el modelo o el contexto no se ajustan o cuando se necesita más rendimiento con el mismo objetivo de latencia. Usa el paralelismo tensorial o de canalización y prueba las formas de los lotes. El paralelismo aumenta la carga de comunicación, así que mide con tus indicaciones reales. Es crucial medir el rendimiento real y la sobrecarga de comunicación al optimizar las configuraciones de varias GPU.

Piezas de consumo frente a piezas de centros de datos

GPU de consumo (p. ej., clase 4090, clase 5090): excelente relación precio-rendimiento para los modelos 7B—13B. La RTX 4090, basada en la arquitectura de Ada Lovelace, es adecuada para desarrolladores y equipos pequeños que trabajan en cargas de trabajo creativas e inferencias de LLM, y ofrece un rendimiento excelente tanto para aplicaciones artísticas como de inteligencia artificial. Ideal para terminales dedicados en los que puedes controlar el tráfico.

GPU de centros de datos (por ejemplo, A100 de 80 GB, H100 de 80 GB, L40S de 48 GB): diseñado para implementación en centros de datos, estas GPU aprovechan las arquitecturas avanzadas para ofrecer un alto rendimiento, eficiencia energética y eficiencia energética. La A100 utiliza la arquitectura Ampere, que ofrece un rendimiento sólido y excepcional, una gran capacidad de memoria y un diseño energéticamente eficiente, lo que la hace adecuada para la investigación y las cargas de trabajo de IA a gran escala. El H100 se basa en la arquitectura Hopper, que aporta nuevas mejoras en el rendimiento y la eficiencia energética para las exigentes tareas de computación científica y de inteligencia artificial. El L40S, que utiliza la arquitectura Ada Lovelace, mejora tanto las cargas de trabajo creativas como las tareas de inteligencia artificial. Útil para contextos prolongados, modelos más grandes o necesidades de confiabilidad estrictas. El H100 incluye un motor de transformadores especializado para acelerar el entrenamiento y la inferencia de los modelos de transformadores, que son cruciales para las tareas de PNL. Además, el A100 es compatible con la tecnología de GPU de instancias múltiples (MIG) para permitir la partición eficiente de múltiples cargas de trabajo.

Si necesita ECC, tiempos de actividad prolongados o NVLink, un centro de datos optimizado. Si quieres el máximo de fichas por euro en los modelos pequeños y medianos, las tarjetas de consumo salen ganando.

Latencia y rendimiento, en pocas palabras

TTFT está dominado por las colas y el llenado previo. Los avisos más grandes y el menor espacio de memoria lo aumentan.
Tokens por segundo (TPS) aumenta con una eficiencia saludable de procesamiento por lotes y decodificación. Más VRAM → mayor cantidad de lotes activos → más TPS. Las funciones avanzadas de la GPU, como el entrenamiento de precisión mixta y los núcleos tensoriales, pueden ayudar a mantener la precisión incluso a medida que aumentan el procesamiento por lotes y el rendimiento.
Colocación en red puede añadir entre 50 y 100 ms en un abrir y cerrar de ojos; mantenga los terminales cerca de los usuarios.

Energía, temperatura y confiabilidad

Las cartas calientes aceleran. Los casos de uso con una carga constante necesitan un buen flujo de aire y un buen margen de potencia. Las piezas de los centros de datos están diseñadas para ello; las tarjetas de consumo pueden hacerlo con cuidado. Controle las temperaturas y los relojes.

Ubicación de la región

Coloque el punto final donde se encuentran la mayoría de los usuarios. Los usuarios de la UE se benefician de Francia. Los mercados de Oriente Medio se benefician de los Emiratos Árabes Unidos. Las llamadas entre regiones añaden una latencia que no se puede optimizar en el código.

Un enfoque presupuestario que puede reutilizar

Estime los tokens/día. Incluya la salida prompt +.
Dividir por TPS/GPU con la calidad y el modelo deseados.
Eso da como resultado horas de GPU por día. Multiplica por tu tarifa por hora.
Realice una comprobación de sensibilidad. Varía el contexto y el máximo de fichas; estas oscilaciones son las que más cuestan.
Decida sobre la redundancia. Un nodo de repuesto cuesta dinero, pero ahorra incidentes.

Monitorización que vale la pena

TTFT p50/p95 bajo carga creciente
TPS p50/p95 con tráfico constante
Espacio libre de memoria de la GPU y tasa de aciertos de caché
Eventos de regulación térmica
Tasas de error (OOM, tiempos de espera, 5xx)

Lista de verificación rápida

Empieza con el modelo más pequeño que supere las evaluaciones.
Elija VRAM con margen de ampliación para el contexto y el lote.
Prefiere una sola GPU hasta que tengas que escalar.
Transmite las respuestas y limita los max_tokens.
Coloque los puntos finales en la región en la que viven los usuarios.
Mira TTFT/TPS, memoria, temperaturas y errores.

Prueba Compute hoy

En Calcular, elija desde ajustes preestablecidos de la clase 4090 hasta ajustes preestablecidos de varias GPU, con las regiones de Francia y los Emiratos Árabes Unidos. Lanza un VLLM servidor y dirija su cliente de OpenAI a la nueva URL base.

Recomendaciones finales para elegir la mejor GPU para la inferencia de LLM

Elija primero las GPU por VRAM, luego por velocidad, luego precio. Mantenga los terminales cerca de los usuarios, transmita las respuestas y vea TTFT y la memoria. Deje que las mediciones limpias, no las hojas de especificaciones, impulsen las actualizaciones.

¿Listo para realizar la prueba? ¿Lanzar un VLLM punto final activado Calcular, elige tu región y tu configuración predeterminada, y compara TTFT/TPS antes de comprometerte con una tarjeta más grande.

PREGUNTAS MÁS FRECUENTES

¿Qué GPU es suficiente para un modelo de chat de 7B?

Una tarjeta de 24 GB suele funcionar bien, especialmente con las variantes int8 o int4 y con límites razonables. Deje espacio libre para la caché y el procesamiento por lotes.

¿Cuándo necesito Multi-GPU?

Cuando el modelo o el contexto no caben en una tarjeta con margen de ampliación o cuando se necesita un mayor rendimiento con el mismo objetivo de latencia.

¿Necesito NVLink?

Útil para modelos muy grandes y contextos extensos en varias GPU. En el caso de los modelos 7B—13B con un contexto moderado, a menudo puedes quedarte en una sola tarjeta.

4090 contra A100 contra H100: ¿qué debo pensar al respecto?

La clase 4090 ofrece una excelente relación precio-rendimiento para los modelos pequeños y medianos. Los modelos A100/H100 incorporan grandes grupos de VRAM, ECC e interconexiones para un uso intensivo, un contexto prolongado y un tiempo de actividad estricto. El H100 también cuenta con un motor de transformación, que acelera el entrenamiento y la inferencia de modelos de transformación para modelos lingüísticos de gran tamaño. El H100 ofrece una inferencia hasta 30 veces mejor y un rendimiento de entrenamiento 9 veces mejor que el A100, lo que lo convierte en una mejora significativa para las cargas de trabajo de IA más exigentes.

¿Qué cambia para un contexto largo (más de 32 000)?

Predomina el crecimiento de la memoria caché. Consiga más VRAM por nodo, recorte las solicitudes mediante RAG o divídalas entre las GPU con cuidado.

¿La cuantificación me permitirá eliminar un nivel de GPU?

A menudo sí. Empieza con int8; pasa a int4 solo si tus evaluaciones se mantienen estables.

¿Necesitas una GPU para la inferencia de LLM?

Sí, las GPU son esenciales para una inferencia de LLM eficiente, ya que proporcionan la potencia de procesamiento en paralelo necesaria para gestionar la gran cantidad de parámetros y operaciones matriciales implicadas. Si bien las CPU pueden ejecutar inferencias, las GPU aceleran considerablemente el proceso y reducen la latencia.

¿Qué GPU necesito para el LLM?

La elección depende del tamaño del modelo y de la carga de trabajo. Para los modelos más pequeños, como los 7B, suelen ser suficientes las GPU de consumo con unos 24 GB de VRAM (por ejemplo, la RTX 4090). Los modelos más grandes o las cargas de trabajo que requieren ventanas de contexto prolongadas pueden necesitar GPU para centros de datos, como las NVIDIA A100 o H100, que ofrecen más memoria y funciones como NVLink. La RTX 4090 tiene 24 GB de memoria GDDR6X, suficiente para ejecutar o ajustar modelos de la gama de 7 a 13 GB.

¿Qué GPU usa OpenAI para la inferencia?

Por lo general, OpenAI usa GPU de centros de datos de alta gama, como NVIDIA A100 y H100, para realizar inferencias a fin de gestionar modelos a gran escala de manera eficiente, beneficiándose de su gran capacidad de memoria, núcleos tensoriales y capacidades de GPU de múltiples instancias.

¿Cómo elegir la GPU para la inferencia?

Tenga en cuenta el tamaño del modelo, la VRAM requerida, las necesidades de rendimiento, los objetivos de latencia y el presupuesto. Comience por asegurarse de que la GPU tenga suficiente memoria para el modelo y su caché y, a continuación, evalúe los factores de rendimiento, como los núcleos CUDA, los núcleos tensoriales y el ancho de banda de la memoria. Además, considera la posibilidad de configurar una o varias GPU en función de la escala de la carga de trabajo.

¿Cuánto más rápido es el A100 que el 4090?

El rendimiento varía según la carga de trabajo. La A100 se destaca en cargas de trabajo de IA a gran escala con funciones como núcleos tensoriales y un gran ancho de banda de memoria, mientras que la RTX 4090 ofrece un rendimiento bruto competitivo para modelos más pequeños a un costo menor. Para algunas tareas, la A100 puede ser más rápida, pero la 4090 puede igualar o superar el rendimiento en otras, especialmente en situaciones centradas en el consumidor. El A100 ofrece un equilibrio excelente entre rendimiento y eficiencia energética, lo que lo hace adecuado para muchas cargas de trabajo de LLM.

¿Cuál es la diferencia entre la H100 y la A100 frente a la RTX 4090?

La H100 y la A100 son GPU de centros de datos optimizadas para cargas de trabajo de IA con funciones como mayor VRAM, núcleos tensoriales, NVLink y compatibilidad con GPU de varias instancias. La RTX 4090 es una GPU de consumo con un rendimiento y una eficiencia excelentes para los modelos más pequeños, pero carece de algunas de las funciones empresariales y de los grandes grupos de memoria de la H100/A100. Tanto la H100 como la A100 son ideales para cargas de trabajo de IA a gran escala, mientras que la RTX 4090 es más adecuada para tareas más pequeñas.

¿Sigue siendo relevante la Nvidia A100?

Sí, el A100 sigue siendo muy relevante para el entrenamiento y la inferencia de IA a gran escala, ya que ofrece un equilibrio excelente entre rendimiento, capacidad de memoria y funciones empresariales, especialmente para las cargas de trabajo que requieren modelos grandes y configuraciones de varias GPU.

¿Por qué se descontinúa el 4090?

No hay confirmación oficial de que la NVIDIA RTX 4090 vaya a dejar de fabricarse. Cualquier rumor debe verificarse a través de los anuncios oficiales de NVIDIA. Por lo general, la descontinuación de un producto se debe a lanzamientos de nueva generación o a cambios en la cadena de suministro.

¿Cuánta VRAM necesita un modelo 7B?

Un modelo 7B normalmente requiere alrededor de 14 a 16 GB de VRAM con precisión FP16, y se necesitan menos si se utilizan técnicas de cuantificación como int8 o int4. Se necesita más espacio de memoria para la caché y el procesamiento por lotes.

¿Qué GPU ejecutará el modelo 7B?

Las GPU con al menos 16 GB de VRAM, como la NVIDIA RTX 4090 o la A100 de 40 GB, pueden ejecutar modelos de 7 B de manera eficiente, especialmente cuando utilizan la cuantificación y el procesamiento por lotes optimizado.

¿Cuánta VRAM tiene Vega 7?

La GPU integrada AMD Vega 7 normalmente comparte la memoria del sistema y no tiene una VRAM dedicada. La cantidad disponible depende de la configuración del sistema y, por lo general, oscila entre 2 y 4 GB de memoria compartida.

¿Qué GPU necesitas para Mistral 7B?

Mistral 7B, al ser un modelo de 7 mil millones de parámetros, requiere una GPU con al menos 16 GB de VRAM para una inferencia eficiente, como la NVIDIA RTX 4090 o GPU de centro de datos equivalentes, y la cuantificación podría reducir las necesidades de memoria.

‍

Cuando los estudiantes de IA superan el entorno limitado: cómo DSTI amplió su acceso a la GPU con Hivenet

La Escuela de Ingeniería DSTI se asoció con Hivenet para ofrecer a los estudiantes de máster un acceso más uniforme a una computación GPU europea asequible para proyectos reales de aprendizaje profundo.