Inferencia de LLM en producción: una guía práctica

La formación llama la atención. La inferencia lleva la carga. El tráfico es irregular, las instrucciones varían en longitud y las personas esperan que las palabras aparezcan en la pantalla casi de inmediato. Para cumplir esa promesa, necesitas una configuración de servicio que trate la memoria, el procesamiento por lotes y el costo como cuestiones de primera clase. Al optimizar la inferencia de LLM, siempre hay un equilibrio entre minimizar la latencia y maximizar el rendimiento. La baja latencia es fundamental para que las aplicaciones interactivas garanticen una buena experiencia de usuario.

‍
¿Necesita un terminal dedicado que pueda ajustar? En Calcular, puedes lanzar un VLLM servidor de inferencia en RTX 4090 o ajustes preestablecidos de varias GPU. Obtienes una URL HTTPS que funciona con los SDK de OpenAI. Elige una región para mantener los datos cerca de los usuarios.

Por qué la inferencia es difícil

Las solicitudes llegan en ráfagas. Algunas instrucciones son breves, otras contienen largas conversaciones. El modelo crea una caché de claves/valores a medida que genera los tokens. Esa caché se encuentra en la memoria de la GPU. Si no lo administra bien, la latencia aumenta y el rendimiento se reduce. Los recursos informáticos disponibles, como las GPU, afectan directamente al rendimiento del modelo y a la capacidad del sistema para gestionar un alto rendimiento sin provocar cuellos de botella en el rendimiento. Las longitudes de secuencia de entrada (ISL) más grandes afectan a los requisitos de memoria y pueden aumentar el tiempo hasta el primer token (TTFT).

Tu objetivo es sencillo: mantener la latencia baja y, al mismo tiempo, ofrecer tantos tokens por segundo como los usuarios necesiten, sin gastar mucho dinero. Equilibrar la latencia y el rendimiento es fundamental a la hora de optimizar la inferencia de la LLM, ya que ambas métricas tienen un impacto significativo en el rendimiento y el costo. La evaluación del rendimiento de la LLM implica monitorear estas métricas para garantizar un funcionamiento eficiente y rentable. Uno de los mayores desafíos de la inferencia de la LLM es su costo computacional, que puede generar una latencia y unos gastos elevados. La latencia es crucial para la experiencia del usuario en aplicaciones interactivas en tiempo real.

Los tres números a tener en cuenta

Estas son las métricas clave que normalmente se miden al evaluar el rendimiento de la inferencia de LLM:

Tiempo hasta el primer token (TTFT). Qué tan rápido comienza la respuesta. Los usuarios sienten esto, ya que marca el retraso inicial antes de que comience la producción del modelo. El TTFT se ve influenciado por la cola de solicitudes, el llenado previo y la latencia de la red.
Tokens por segundo (TPS). Qué tan rápido fluye el texto una vez que se inicia. Esto establece la sensación de chat y la capacidad de la API.
Rendimiento. El rendimiento del sistema es una métrica fundamental para evaluar la capacidad máxima de procesamiento bajo carga. Mide cuántas solicitudes simultáneas permanecen dentro del objetivo de latencia, lo que refleja la eficiencia del sistema de inferencia.
Latencia entre tokens (ITL). El tiempo promedio entre la generación de símbolos consecutivos en una secuencia, lo que afecta a la fluidez de la generación del texto. El tiempo necesario para generar cada token de finalización afecta directamente a la velocidad general de la inferencia y a la capacidad de respuesta de los resultados del modelo. La latencia aceptable varía según el caso de uso; por ejemplo, los chatbots requieren una latencia más baja que los procesos fuera de línea.

La latencia promedio y la latencia total son importantes para comprender la experiencia del usuario, ya que representan el tiempo medio y total desde el inicio de la solicitud hasta la recepción del token final. Las métricas basadas en tokens ayudan a comparar la eficiencia del modelo, el costo de capacitación y la velocidad de inferencia entre diferentes modelos y métodos de tokenización.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Arquitecturas de servicio

GPU única. Sencillo para modelos 7B-13B, pruebas de concepto y aplicaciones pequeñas.

GPU múltiple. Un anfitrión, varias tarjetas. Utilice el paralelismo tensorial o de canalización para adaptarse a modelos más grandes o aumentar el rendimiento. A medida que aumentan las solicitudes simultáneas, se puede lograr un mayor rendimiento hasta los límites del sistema de inferencia.

Escala horizontal. Muchos nodos detrás de una puerta de enlace. Añada un equilibrio de carga, sesiones fijas para reutilizar la caché y un planificador que conozca la longitud de las solicitudes y los resultados. El equilibrio de carga y la programación son esenciales para escalar los sistemas de LLM de manera eficiente.

Terminales sin servidor. Ideal para picos afilados cuando puedes aceptar arranques en frío y un costo variable.

¿Prefiere un rendimiento predecible? Prueba Compute y lanza un servidor vLLM en un único 4090 o escala a un ajuste preestablecido de varias GPU. Obtienes capacidad dedicada y precios claros.

Los motores de un vistazo

VLLM. Gran simultaneidad gracias al procesamiento continuo por lotes y a la paginación inteligente con caché KV. Incluye un servidor HTTP compatible con OpenAI.

Inferencia de generación de texto (TGI). Una opción sólida en el ecosistema de Hugging Face con herramientas maduras.

TensorRT‑LLM. El camino de NVIDIA hacia la máxima velocidad en hardware compatible. Es mejor cuando puedes invertir en optimización.

Ollama. Ideal localmente o para configuraciones sencillas de una sola caja. Se centra menos en las API de alto tráfico.

Elige en función del perfil de tráfico, la compatibilidad del modelo y la cantidad de ajustes que quieras tener.

Contexto y memoria

Los mensajes prolongados y las conversaciones prolongadas aumentan la caché KV. Sin una paginación cuidadosa, la VRAM desaparece y la latencia aumenta. Las longitudes de secuencia de entrada (ISL) más grandes afectan a los requisitos de memoria y pueden aumentar el tiempo hasta el primer token (TTFT). La complejidad y la duración de las solicitudes de entrada pueden afectar significativamente tanto al uso de la memoria como a la latencia de inferencia. La longitud máxima del contexto limita la cantidad total de tokens de entrada y salida que el modelo puede procesar a la vez, lo que afecta directamente a la capacidad de gestionar secuencias más largas y al rendimiento general. Hay dos factores que ayudan a la mayoría de los equipos: usar un tamaño de lote mayor requiere más VRAM y puede llevar a un mayor uso de memoria para la caché KV.

Generación aumentada de recuperación (RAG). Mantenga las instrucciones breves. Obtenga el contexto correcto en el momento de la solicitud. Controlar la longitud de la salida es importante para administrar la memoria y los costos.
Almacenamiento en caché eficiente. Los motores como vLLM dividen la caché en pequeños bloques, reutilizan lo que pueden y eliminan lo que deben.
Cuantificación. Esta técnica reduce los requisitos de hardware para la inferencia de LLM al disminuir la precisión de las ponderaciones y activaciones de los modelos. Es importante utilizar datos de prueba representativos para evaluar el impacto de la cuantificación en el rendimiento.

Cuantificación, brevemente

Una menor precisión ahorra memoria y puede mejorar el rendimiento. AWQ o GPTQ int8/int4 son comunes. Espere pequeñas pérdidas de calidad. La cuantificación puede afectar a la calidad de la generación, por lo que debe evaluarse cuidadosamente utilizando los puntos de referencia pertinentes. Haz pruebas con tus datos antes de comprometerte. Es posible que sea necesario realizar ajustes precisos para mantener el rendimiento después de la cuantificación.

Opciones de hardware

La memoria es lo primero. La VRAM establece el tamaño del modelo y la profundidad del lote. Veinticuatro gigabytes caben en muchos modelos de 7 GB con espacio para procesar lotes. Los modelos más grandes o los contextos prolongados suelen necesitar entre 48 y 80 GB o varias GPU, lo que aumenta los costos de infraestructura a medida que se requiere más hardware.
Calcula a continuación. Los núcleos adicionales ayudan durante el llenado previo. Agrupe bien y la decodificación sigue siendo eficiente.
Colocación en red. Coloque el punto final cerca de los usuarios. La latencia de la red se acumula rápidamente. FlashAttention reordena los cálculos del mecanismo de atención para reducir los requisitos de ancho de banda de la memoria.

Optimizar la selección de hardware y las estrategias de procesamiento por lotes es esencial para maximizar la rentabilidad en la inferencia de LLM, equilibrando el rendimiento con los costos de recursos e infraestructura.

¿Usuarios de la UE? Implemente la computación en Francia. ¿Mercados de Oriente Medio? Elige una región de los Emiratos Árabes Unidos. Mantenga el tráfico cerca.

Costos que importan

Horas de GPU. Tu artículo de línea principal. Hardware del tamaño adecuado para modelar y vender.
Tiempo de inactividad. Amplíe automáticamente o apáguelo cuando no haya ruido, o pague por la disponibilidad instantánea.
Desperdicio simbólico. Los avisos largos y los max_tokens altos queman dinero. Transmite las respuestas y limita las salidas.
Tamaño del lote. Los tamaños de lote más altos pueden conducir a un uso más eficiente de la GPU, pero pueden aumentar la latencia de las solicitudes individuales. Los lotes más grandes pueden mejorar el rendimiento, pero por lo general conducen a un aumento de la latencia. El modo de transmisión permite a los LLM proporcionar resultados incrementales, lo que mejora la experiencia del usuario. Maximizar el rendimiento con tamaños de lote óptimos puede mejorar significativamente la rentabilidad al hacer un mejor uso de los recursos de hardware disponibles.

Equilibrar la latencia y el rendimiento es fundamental a la hora de optimizar la inferencia de LLM, ya que ambas métricas tienen un impacto significativo en el rendimiento y la rentabilidad.

Un modelo aproximado: calcule los tokens generados diariamente, divídalos entre los tokens esperados por segundo por GPU y, a continuación, conviértalos en horas de GPU. Compáralo con el tráfico real y añade margen para los picos. A medida que aumenta la concurrencia, el total de tokens por segundo (TPS) aumenta hasta alcanzar un punto de saturación, más allá del cual el rendimiento puede disminuir. Es importante comprender cuántas solicitudes puede gestionar su sistema en un plazo determinado para planificar la capacidad y gestionar los costos de manera eficaz. Tenga en cuenta que el rendimiento real puede diferir de estas estimaciones debido a las variaciones del hardware y a los factores de infraestructura, por lo que debe validarlo siempre con los datos de implementación reales.

Fiabilidad y observabilidad

La evaluación comparativa del rendimiento de LLM y la evaluación del rendimiento de LLM mediante métricas clave son fundamentales para garantizar despliegues confiables y eficientes. El seguimiento de estas métricas ayuda a los equipos a comprender la capacidad del sistema, identificar los cuellos de botella y optimizar el uso de los recursos.

Rastrea al menos:

Velocidad de solicitud, longitud de cola, TTFT, TPS
Uso de la memoria de la GPU y tasa de aciertos de la caché
Uso de recursos de inferencia de modelos (uso de la GPU y requisitos de memoria durante la inferencia)
Tipos de error: OOM, tiempos de espera, 5xx
La supervisión de la utilización del ancho de banda (MBU) del modelo puede ayudar a comparar la eficiencia entre diferentes sistemas de inferencia.

Las métricas comunes de evaluación comparativa incluyen el tiempo hasta el primer token (TTFT) y los tokens por segundo (TPS), que son esenciales para evaluar el rendimiento del sistema. La evaluación comparativa de los LLM es esencial para evaluar su rendimiento y eficiencia en aplicaciones del mundo real, ya que ayuda a los equipos a identificar las áreas de mejora y optimización. La evaluación del rendimiento de los LLM implica el uso de varias herramientas que definen, miden y calculan las métricas de manera diferente. La evaluación comparativa del rendimiento ayuda a identificar los problemas relacionados con la eficiencia y la optimización del modelo. La combinación de las pruebas de carga y la evaluación comparativa del rendimiento proporciona una comprensión integral de las capacidades de implementación de LLM. El análisis de la curva de latencia también es importante para comprender el equilibrio entre el tamaño del lote y la latencia, y cómo las diferentes configuraciones afectan al rendimiento y a los tiempos de respuesta.

Alerta cuando el TTFT aumenta o el TPS cae bajo carga constante. Esto suele ser una señal de presión sobre la memoria, de una mala gestión de los lotes o de cuellos de botella en el rendimiento.

Seguridad y residencia de datos

Cierre TLS, rote las claves, mantenga el alcance del acceso y evite registrar las solicitudes sin procesar a menos que sea necesario. Si trabajas en Europa, conserva y elimina los datos por región y conserva y elimina los documentos.

¡Prueba Compute hoy mismo!
Los terminales de cómputos usan HTTPS de forma predeterminada. Elige una ubicación europea para mantener los datos en la región.

Construir o comprar

Hazlo tuyo si necesitas un control total y tienes tiempo para ajustarlo. Utilice un terminal dedicado y gestionado si quiere rentabilizar rápidamente y gastar de forma predecible. Mantén una ruta de salida en cualquier dirección. Los servidores vLLM de Compute proporcionan un punto final dedicado con Rutas compatibles con OpenAI. Cambie la URL base en su SDK y empiece a funcionar.

Lectura adicional

PREGUNTAS MÁS FRECUENTES

¿Qué es TTFT y por qué es importante?

El tiempo que transcurre hasta el primer token es el intervalo entre enviar un mensaje y ver el primer token. El TTFT corto mejora la velocidad percibida y la confianza. La gente siente este número más que ningún otro. La latencia de solicitud de extremo a extremo (e2e_latency) incluye el tiempo transcurrido desde que se envía una solicitud hasta que se recibe el token final, lo que proporciona una medida más amplia de la experiencia del usuario.

¿Cuántos usuarios simultáneos puede atender una GPU?

Depende del tamaño del modelo, la longitud del contexto y el procesamiento por lotes. Un modelo 7B bien ajustado con instrucciones breves y transmisión puede ser útil para muchos usuarios con una sola tarjeta de 24 GB. Los contextos largos reducen ese número rápidamente.

¿Un contexto largo supera a RAG?

No siempre. Los contextos prolongados son sencillos pero costosos. RAG mantiene las solicitudes ajustadas y le permite escalar la recuperación de forma independiente. Muchos equipos utilizan un híbrido.

¿Necesito usar Multi-GPU de inmediato?

Inicie una sola GPU si puede. Cambie a varias GPU cuando la memoria o el rendimiento lo exijan. Prueba los modos paralelos y comprueba el estado de la caché.

¿Puedo conservar los datos en la UE?

Sí. Coloque el terminal en una región de la UE, utilice HTTPS, controle el acceso y defina políticas de retención claras.

¿Qué es una inferencia de LLM?

La inferencia de LLM es el proceso en el que un modelo de lenguaje grande genera una respuesta basada en una solicitud de entrada mediante el procesamiento de tokens a través de su red neuronal. Durante la inferencia, el LLM procesa la solicitud activando su amplia red de parámetros para predecir la secuencia de fichas más probable. Los LLM pueden procesar grandes volúmenes de texto y proporcionar resúmenes concisos de artículos o documentos.

¿Cuáles son las etapas de la inferencia del LLM?

La inferencia de LLM generalmente implica dos etapas: la fase de prellenado, en la que se procesan los tokens de entrada, y la fase de decodificación, en la que el modelo genera los tokens de salida uno por uno.

¿Cuál es la diferencia entre el LLM de inferencia y el entrenamiento?

El entrenamiento implica ajustar los parámetros del modelo utilizando grandes conjuntos de datos, mientras que la inferencia utiliza el modelo entrenado para generar resultados sin cambiar sus parámetros. Los LLM pueden generar artículos, historias, textos de marketing e incluso código.

¿Qué son los motores de inferencia LLM?

Se trata de sistemas de software diseñados para ejecutar de manera eficiente los LLM a fin de generar resultados, optimizando la latencia, el rendimiento y el uso de los recursos.

¿Para qué sirve vLLM?

vLLM es un motor de inferencia centrado en una sólida concurrencia con un procesamiento continuo por lotes y una administración eficiente de la caché de valores clave para optimizar el servicio de LLM.

¿Cuál es la diferencia entre vLLM y LLM?

El LLM se refiere al modelo de lenguaje grande en sí mismo, mientras que el vLLM es un motor o marco para ofrecer LLM de manera eficiente en producción.

¿VllM es más rápido que Ollama?

vLLM está optimizado para una alta concurrencia y rendimiento, lo que a menudo hace que sea más rápido atender múltiples solicitudes en comparación con Ollama, que es más adecuado para configuraciones más simples.

¿Por qué vLLM es tan rápido?

Porque utiliza el procesamiento continuo por lotes y la paginación inteligente de la caché de valores clave para maximizar el uso de la GPU y reducir la latencia.

¿Qué significa servir LLM?

La prestación de LLM se refiere a la implementación y ejecución de modelos lingüísticos de gran tamaño para responder a las solicitudes de los usuarios en tiempo real o en modo por lotes.

¿Qué es un motor de servicio de LLM?

Es una plataforma o software que aloja y administra los LLM, gestionando las solicitudes de inferencia de manera eficiente.

¿Qué es un servidor LLM?

Un servidor configurado para ejecutar cargas de trabajo de inferencia de LLM, que proporciona acceso a las predicciones del modelo a través de API u otras interfaces.

¿Qué significa LLM como juez?

Se refiere al uso de los LLM para evaluar o puntuar los resultados, como evaluar la calidad del modelo o clasificar las respuestas.

¿Qué son los tokens por segundo?

Los tokens por segundo (TPS) miden cuántos tokens genera o procesa un LLM en un segundo, lo que indica el rendimiento.

¿Cuántos tokens por segundo tiene ChatGPT?

El TPS de ChatGPT varía según la implementación y el hardware, pero normalmente oscila entre unas pocas docenas y más de cien tokens por segundo.

¿Cuántas palabras son 1000 fichas?

Aproximadamente 750 palabras en inglés, ya que una ficha corresponde aproximadamente a 0,75 palabras.

¿Qué significa un token en la IA?

Un símbolo es la unidad de texto más pequeña que procesa un modelo lingüístico, que puede ser una palabra, una subpalabra o un carácter.

¿Qué es TTFT?

El tiempo hasta el primer token (TTFT) es la latencia desde el envío de una solicitud hasta la recepción del primer token generado.

¿Cómo medir el TTFT?

Registrando la diferencia de tiempo entre enviar una solicitud y recibir el primer token de salida del modelo.

¿Qué es la métrica TPOT en LLM?

El tiempo por token de salida (TPOT) mide el tiempo promedio que se tarda en generar cada token de salida después del primero.

¿Cuál es el momento de hacer el primer token de Nvidia?

Es la medición del TTFT que realiza Nvidia y se centra en las métricas de latencia durante la inferencia de LLM en el hardware de Nvidia.

¿Qué es una caché KV?

Una caché de valores clave almacena los resultados de atención intermedios durante la decodificación para evitar volver a calcular los tokens anteriores.

¿Qué es la caché GPU KV?

Es el almacenamiento de datos de caché de valores clave en la memoria de la GPU para acelerar la generación de tokens LLM.

¿Qué es la caché KV en LLM?

La caché KV contiene las claves y los valores de los tokens anteriores para calcular de manera eficiente la atención a los nuevos tokens.

¿Qué es la caché de almacenamiento de valores clave?

Estructura de datos que almacena pares de claves y valores, que se utiliza en los LLM para almacenar en caché los cálculos intermedios.

¿Qué es el procesamiento continuo por lotes?

Una técnica en la que las solicitudes entrantes se agrupan por lotes de forma continua para maximizar la utilización y el rendimiento de la GPU.

¿Qué es un lote continuo?

Un lote de solicitudes de inferencia que se forman de forma dinámica a medida que llegan y se procesan sin esperar intervalos fijos.

¿Cuál es la diferencia entre el procesamiento por lotes continuo y el procesamiento por lotes en vuelo?

El procesamiento continuo por lotes forma lotes de forma dinámica y continua, mientras que el procesamiento por lotes en curso se refiere a las solicitudes que se están procesando actualmente.

¿Qué significa el procesamiento por lotes en la banca?

En la banca, el procesamiento por lotes se refiere a agrupar transacciones para procesarlas de manera colectiva, sin relación con el servicio de LLM.

¿Qué es el rendimiento y la latencia de LLM?

El rendimiento es la cantidad de tokens o solicitudes que un LLM puede procesar por segundo; la latencia es el tiempo que se tarda en generar respuestas.

¿Cómo reducir la latencia en los LLM?

Optimizando las estrategias de procesamiento por lotes, utilizando hardware eficiente, reduciendo la longitud de la secuencia de entrada y aprovechando el almacenamiento en caché.

¿Qué es mejor, 50 ms o 40 ms de latencia?

Una latencia de 40 ms es mejor, ya que significa tiempos de respuesta más rápidos.

¿Cuál es el mayor problema de la LLM?

Alto costo computacional y latencia, especialmente para modelos grandes con contextos largos.

¿Cuál es el rendimiento de un LLM?

Es el número de fichas o solicitudes que un LLM puede procesar por segundo en determinadas condiciones.

¿Cómo probar el rendimiento del LLM?

Midiendo los tokens generados a lo largo del tiempo bajo cargas y simultaneidad controladas.

¿LLM consume mucha CPU o GPU?

La inferencia de LLM requiere principalmente un uso intensivo de la GPU debido a los grandes cálculos matriciales.

¿Cómo aumentar el rendimiento del LLM?

Mediante el procesamiento por lotes de solicitudes, el uso de motores de inferencia optimizados y la implementación en GPU potentes.

¿Qué GPU usar para LLM?

Por lo general, se utilizan GPU con mucha memoria y ancho de banda de memoria, como Nvidia RTX 4090 o A100.

¿Algo de LLM usa GPU?

Sí, la inferencia y el entrenamiento de LLM dependen en gran medida de las GPU para la computación en paralelo.

¿Necesito una GPU para ejecutar LLM localmente?

Para los modelos grandes, se recomienda una GPU; los modelos pequeños pueden funcionar con CPU pero con un rendimiento reducido.

¿La RTX 4090 es buena para LLM?

Sí, el RTX 4090 ofrece una alta capacidad de procesamiento y VRAM adecuada para muchas tareas de inferencia de LLM.

‍

Cuando los estudiantes de IA superan el entorno limitado: cómo DSTI amplió su acceso a la GPU con Hivenet

La Escuela de Ingeniería DSTI se asoció con Hivenet para ofrecer a los estudiantes de máster un acceso más uniforme a una computación GPU europea asequible para proyectos reales de aprendizaje profundo.