
La mayoría de los problemas de inferencia son problemas de memoria disfrazado. Si el modelo y su caché se ajustan al margen de maniobra, puede procesar las solicitudes por lotes y mantener una latencia constante. Si la memoria es escasa, todo se ralentiza. Comience con la VRAM, luego piense en la velocidad y el precio.
La arquitectura de GPU subyacente desempeña un papel crucial a la hora de determinar el rendimiento de la inferencia y la idoneidad del hardware para la implementación de LLM, ya que las diferencias arquitectónicas afectan a la eficiencia y la escalabilidad de los modelos grandes.
En Calcular, puedes lanzar un servidor vLLM en Compute en ajustes preestablecidos de una o varias GPU, incluidas las opciones de clase 4090 y clase 5090 cuando estén disponibles. Las plataformas en la nube, como Compute, se utilizan cada vez más para la implementación de la LLM debido al acceso flexible a las GPU de alto rendimiento. Elija las regiones de Francia o los Emiratos Árabes Unidos para mantener los terminales cerca de los usuarios.
Estos son rangos aproximados para solo pesas. Todavía necesitas espacio libre para el Caché KV y procesamiento por lotes.
La prestación de servicios de LLM (modelos de lenguaje de gran tamaño) de manera eficiente requiere una planificación cuidadosa de la asignación de memoria de la GPU tanto para el modelo como para su caché, ya que la inferencia de LLM es exigente desde el punto de vista computacional y se beneficia de un hardware especializado.
Añada margen de caché: los contextos más largos y una mayor concurrencia pueden duplicar o triplicar el conjunto de trabajo. Si la VRAM tiene una carga superior al 90%, es de esperar que el TTFT aumente.
GPU única es más simple y, a menudo, más rápido para los modelos de la clase 7B con un contexto moderado. Empieza aquí si puedes.
Multi-GPU ayuda cuando el modelo o el contexto no se ajustan o cuando se necesita más rendimiento con el mismo objetivo de latencia. Usa el paralelismo tensorial o de canalización y prueba las formas de los lotes. El paralelismo aumenta la carga de comunicación, así que mide con tus indicaciones reales. Es crucial medir el rendimiento real y la sobrecarga de comunicación al optimizar las configuraciones de varias GPU.
GPU de consumo (p. ej., clase 4090, clase 5090): excelente relación precio-rendimiento para los modelos 7B—13B. La RTX 4090, basada en la arquitectura de Ada Lovelace, es adecuada para desarrolladores y equipos pequeños que trabajan en cargas de trabajo creativas e inferencias de LLM, y ofrece un rendimiento excelente tanto para aplicaciones artísticas como de inteligencia artificial. Ideal para terminales dedicados en los que puedes controlar el tráfico.
GPU de centros de datos (por ejemplo, A100 de 80 GB, H100 de 80 GB, L40S de 48 GB): diseñado para implementación en centros de datos, estas GPU aprovechan las arquitecturas avanzadas para ofrecer un alto rendimiento, eficiencia energética y eficiencia energética. La A100 utiliza la arquitectura Ampere, que ofrece un rendimiento sólido y excepcional, una gran capacidad de memoria y un diseño energéticamente eficiente, lo que la hace adecuada para la investigación y las cargas de trabajo de IA a gran escala. El H100 se basa en la arquitectura Hopper, que aporta nuevas mejoras en el rendimiento y la eficiencia energética para las exigentes tareas de computación científica y de inteligencia artificial. El L40S, que utiliza la arquitectura Ada Lovelace, mejora tanto las cargas de trabajo creativas como las tareas de inteligencia artificial. Útil para contextos prolongados, modelos más grandes o necesidades de confiabilidad estrictas. El H100 incluye un motor de transformadores especializado para acelerar el entrenamiento y la inferencia de los modelos de transformadores, que son cruciales para las tareas de PNL. Además, el A100 es compatible con la tecnología de GPU de instancias múltiples (MIG) para permitir la partición eficiente de múltiples cargas de trabajo.
Si necesita ECC, tiempos de actividad prolongados o NVLink, un centro de datos optimizado. Si quieres el máximo de fichas por euro en los modelos pequeños y medianos, las tarjetas de consumo salen ganando.
Las cartas calientes aceleran. Los casos de uso con una carga constante necesitan un buen flujo de aire y un buen margen de potencia. Las piezas de los centros de datos están diseñadas para ello; las tarjetas de consumo pueden hacerlo con cuidado. Controle las temperaturas y los relojes.
Coloque el punto final donde se encuentran la mayoría de los usuarios. Los usuarios de la UE se benefician de Francia. Los mercados de Oriente Medio se benefician de los Emiratos Árabes Unidos. Las llamadas entre regiones añaden una latencia que no se puede optimizar en el código.
Prueba Compute hoy
En Calcular, elija desde ajustes preestablecidos de la clase 4090 hasta ajustes preestablecidos de varias GPU, con las regiones de Francia y los Emiratos Árabes Unidos. Lanza un VLLM servidor y dirija su cliente de OpenAI a la nueva URL base.
Elija primero las GPU por VRAM, luego por velocidad, luego precio. Mantenga los terminales cerca de los usuarios, transmita las respuestas y vea TTFT y la memoria. Deje que las mediciones limpias, no las hojas de especificaciones, impulsen las actualizaciones.
¿Listo para realizar la prueba? ¿Lanzar un VLLM punto final activado Calcular, elige tu región y tu configuración predeterminada, y compara TTFT/TPS antes de comprometerte con una tarjeta más grande.
Una tarjeta de 24 GB suele funcionar bien, especialmente con las variantes int8 o int4 y con límites razonables. Deje espacio libre para la caché y el procesamiento por lotes.
Cuando el modelo o el contexto no caben en una tarjeta con margen de ampliación o cuando se necesita un mayor rendimiento con el mismo objetivo de latencia.
Útil para modelos muy grandes y contextos extensos en varias GPU. En el caso de los modelos 7B—13B con un contexto moderado, a menudo puedes quedarte en una sola tarjeta.
La clase 4090 ofrece una excelente relación precio-rendimiento para los modelos pequeños y medianos. Los modelos A100/H100 incorporan grandes grupos de VRAM, ECC e interconexiones para un uso intensivo, un contexto prolongado y un tiempo de actividad estricto. El H100 también cuenta con un motor de transformación, que acelera el entrenamiento y la inferencia de modelos de transformación para modelos lingüísticos de gran tamaño. El H100 ofrece una inferencia hasta 30 veces mejor y un rendimiento de entrenamiento 9 veces mejor que el A100, lo que lo convierte en una mejora significativa para las cargas de trabajo de IA más exigentes.
Predomina el crecimiento de la memoria caché. Consiga más VRAM por nodo, recorte las solicitudes mediante RAG o divídalas entre las GPU con cuidado.
A menudo sí. Empieza con int8; pasa a int4 solo si tus evaluaciones se mantienen estables.
Sí, las GPU son esenciales para una inferencia de LLM eficiente, ya que proporcionan la potencia de procesamiento en paralelo necesaria para gestionar la gran cantidad de parámetros y operaciones matriciales implicadas. Si bien las CPU pueden ejecutar inferencias, las GPU aceleran considerablemente el proceso y reducen la latencia.
La elección depende del tamaño del modelo y de la carga de trabajo. Para los modelos más pequeños, como los 7B, suelen ser suficientes las GPU de consumo con unos 24 GB de VRAM (por ejemplo, la RTX 4090). Los modelos más grandes o las cargas de trabajo que requieren ventanas de contexto prolongadas pueden necesitar GPU para centros de datos, como las NVIDIA A100 o H100, que ofrecen más memoria y funciones como NVLink. La RTX 4090 tiene 24 GB de memoria GDDR6X, suficiente para ejecutar o ajustar modelos de la gama de 7 a 13 GB.
Por lo general, OpenAI usa GPU de centros de datos de alta gama, como NVIDIA A100 y H100, para realizar inferencias a fin de gestionar modelos a gran escala de manera eficiente, beneficiándose de su gran capacidad de memoria, núcleos tensoriales y capacidades de GPU de múltiples instancias.
Tenga en cuenta el tamaño del modelo, la VRAM requerida, las necesidades de rendimiento, los objetivos de latencia y el presupuesto. Comience por asegurarse de que la GPU tenga suficiente memoria para el modelo y su caché y, a continuación, evalúe los factores de rendimiento, como los núcleos CUDA, los núcleos tensoriales y el ancho de banda de la memoria. Además, considera la posibilidad de configurar una o varias GPU en función de la escala de la carga de trabajo.
El rendimiento varía según la carga de trabajo. La A100 se destaca en cargas de trabajo de IA a gran escala con funciones como núcleos tensoriales y un gran ancho de banda de memoria, mientras que la RTX 4090 ofrece un rendimiento bruto competitivo para modelos más pequeños a un costo menor. Para algunas tareas, la A100 puede ser más rápida, pero la 4090 puede igualar o superar el rendimiento en otras, especialmente en situaciones centradas en el consumidor. El A100 ofrece un equilibrio excelente entre rendimiento y eficiencia energética, lo que lo hace adecuado para muchas cargas de trabajo de LLM.
La H100 y la A100 son GPU de centros de datos optimizadas para cargas de trabajo de IA con funciones como mayor VRAM, núcleos tensoriales, NVLink y compatibilidad con GPU de varias instancias. La RTX 4090 es una GPU de consumo con un rendimiento y una eficiencia excelentes para los modelos más pequeños, pero carece de algunas de las funciones empresariales y de los grandes grupos de memoria de la H100/A100. Tanto la H100 como la A100 son ideales para cargas de trabajo de IA a gran escala, mientras que la RTX 4090 es más adecuada para tareas más pequeñas.
Sí, el A100 sigue siendo muy relevante para el entrenamiento y la inferencia de IA a gran escala, ya que ofrece un equilibrio excelente entre rendimiento, capacidad de memoria y funciones empresariales, especialmente para las cargas de trabajo que requieren modelos grandes y configuraciones de varias GPU.
No hay confirmación oficial de que la NVIDIA RTX 4090 vaya a dejar de fabricarse. Cualquier rumor debe verificarse a través de los anuncios oficiales de NVIDIA. Por lo general, la descontinuación de un producto se debe a lanzamientos de nueva generación o a cambios en la cadena de suministro.
Un modelo 7B normalmente requiere alrededor de 14 a 16 GB de VRAM con precisión FP16, y se necesitan menos si se utilizan técnicas de cuantificación como int8 o int4. Se necesita más espacio de memoria para la caché y el procesamiento por lotes.
Las GPU con al menos 16 GB de VRAM, como la NVIDIA RTX 4090 o la A100 de 40 GB, pueden ejecutar modelos de 7 B de manera eficiente, especialmente cuando utilizan la cuantificación y el procesamiento por lotes optimizado.
La GPU integrada AMD Vega 7 normalmente comparte la memoria del sistema y no tiene una VRAM dedicada. La cantidad disponible depende de la configuración del sistema y, por lo general, oscila entre 2 y 4 GB de memoria compartida.
Mistral 7B, al ser un modelo de 7 mil millones de parámetros, requiere una GPU con al menos 16 GB de VRAM para una inferencia eficiente, como la NVIDIA RTX 4090 o GPU de centro de datos equivalentes, y la cuantificación podría reducir las necesidades de memoria.