
La formación llama la atención. La inferencia lleva la carga. El tráfico es irregular, las instrucciones varían en longitud y las personas esperan que las palabras aparezcan en la pantalla casi de inmediato. Para cumplir esa promesa, necesitas una configuración de servicio que trate la memoria, el procesamiento por lotes y el costo como cuestiones de primera clase. Al optimizar la inferencia de LLM, siempre hay un equilibrio entre minimizar la latencia y maximizar el rendimiento. La baja latencia es fundamental para que las aplicaciones interactivas garanticen una buena experiencia de usuario.
¿Necesita un terminal dedicado que pueda ajustar? En Calcular, puedes lanzar un VLLM servidor de inferencia en RTX 4090 o ajustes preestablecidos de varias GPU. Obtienes una URL HTTPS que funciona con los SDK de OpenAI. Elige una región para mantener los datos cerca de los usuarios.
Las solicitudes llegan en ráfagas. Algunas instrucciones son breves, otras contienen largas conversaciones. El modelo crea una caché de claves/valores a medida que genera los tokens. Esa caché se encuentra en la memoria de la GPU. Si no lo administra bien, la latencia aumenta y el rendimiento se reduce. Los recursos informáticos disponibles, como las GPU, afectan directamente al rendimiento del modelo y a la capacidad del sistema para gestionar un alto rendimiento sin provocar cuellos de botella en el rendimiento. Las longitudes de secuencia de entrada (ISL) más grandes afectan a los requisitos de memoria y pueden aumentar el tiempo hasta el primer token (TTFT).
Tu objetivo es sencillo: mantener la latencia baja y, al mismo tiempo, ofrecer tantos tokens por segundo como los usuarios necesiten, sin gastar mucho dinero. Equilibrar la latencia y el rendimiento es fundamental a la hora de optimizar la inferencia de la LLM, ya que ambas métricas tienen un impacto significativo en el rendimiento y el costo. La evaluación del rendimiento de la LLM implica monitorear estas métricas para garantizar un funcionamiento eficiente y rentable. Uno de los mayores desafíos de la inferencia de la LLM es su costo computacional, que puede generar una latencia y unos gastos elevados. La latencia es crucial para la experiencia del usuario en aplicaciones interactivas en tiempo real.
Estas son las métricas clave que normalmente se miden al evaluar el rendimiento de la inferencia de LLM:
La latencia promedio y la latencia total son importantes para comprender la experiencia del usuario, ya que representan el tiempo medio y total desde el inicio de la solicitud hasta la recepción del token final. Las métricas basadas en tokens ayudan a comparar la eficiencia del modelo, el costo de capacitación y la velocidad de inferencia entre diferentes modelos y métodos de tokenización.
GPU única. Sencillo para modelos 7B-13B, pruebas de concepto y aplicaciones pequeñas.
GPU múltiple. Un anfitrión, varias tarjetas. Utilice el paralelismo tensorial o de canalización para adaptarse a modelos más grandes o aumentar el rendimiento. A medida que aumentan las solicitudes simultáneas, se puede lograr un mayor rendimiento hasta los límites del sistema de inferencia.
Escala horizontal. Muchos nodos detrás de una puerta de enlace. Añada un equilibrio de carga, sesiones fijas para reutilizar la caché y un planificador que conozca la longitud de las solicitudes y los resultados. El equilibrio de carga y la programación son esenciales para escalar los sistemas de LLM de manera eficiente.
Terminales sin servidor. Ideal para picos afilados cuando puedes aceptar arranques en frío y un costo variable.
¿Prefiere un rendimiento predecible? Prueba Compute y lanza un servidor vLLM en un único 4090 o escala a un ajuste preestablecido de varias GPU. Obtienes capacidad dedicada y precios claros.
VLLM. Gran simultaneidad gracias al procesamiento continuo por lotes y a la paginación inteligente con caché KV. Incluye un servidor HTTP compatible con OpenAI.
Inferencia de generación de texto (TGI). Una opción sólida en el ecosistema de Hugging Face con herramientas maduras.
TensorRT‑LLM. El camino de NVIDIA hacia la máxima velocidad en hardware compatible. Es mejor cuando puedes invertir en optimización.
Ollama. Ideal localmente o para configuraciones sencillas de una sola caja. Se centra menos en las API de alto tráfico.
Elige en función del perfil de tráfico, la compatibilidad del modelo y la cantidad de ajustes que quieras tener.
Los mensajes prolongados y las conversaciones prolongadas aumentan la caché KV. Sin una paginación cuidadosa, la VRAM desaparece y la latencia aumenta. Las longitudes de secuencia de entrada (ISL) más grandes afectan a los requisitos de memoria y pueden aumentar el tiempo hasta el primer token (TTFT). La complejidad y la duración de las solicitudes de entrada pueden afectar significativamente tanto al uso de la memoria como a la latencia de inferencia. La longitud máxima del contexto limita la cantidad total de tokens de entrada y salida que el modelo puede procesar a la vez, lo que afecta directamente a la capacidad de gestionar secuencias más largas y al rendimiento general. Hay dos factores que ayudan a la mayoría de los equipos: usar un tamaño de lote mayor requiere más VRAM y puede llevar a un mayor uso de memoria para la caché KV.
Una menor precisión ahorra memoria y puede mejorar el rendimiento. AWQ o GPTQ int8/int4 son comunes. Espere pequeñas pérdidas de calidad. La cuantificación puede afectar a la calidad de la generación, por lo que debe evaluarse cuidadosamente utilizando los puntos de referencia pertinentes. Haz pruebas con tus datos antes de comprometerte. Es posible que sea necesario realizar ajustes precisos para mantener el rendimiento después de la cuantificación.
Optimizar la selección de hardware y las estrategias de procesamiento por lotes es esencial para maximizar la rentabilidad en la inferencia de LLM, equilibrando el rendimiento con los costos de recursos e infraestructura.
¿Usuarios de la UE? Implemente la computación en Francia. ¿Mercados de Oriente Medio? Elige una región de los Emiratos Árabes Unidos. Mantenga el tráfico cerca.
Equilibrar la latencia y el rendimiento es fundamental a la hora de optimizar la inferencia de LLM, ya que ambas métricas tienen un impacto significativo en el rendimiento y la rentabilidad.
Un modelo aproximado: calcule los tokens generados diariamente, divídalos entre los tokens esperados por segundo por GPU y, a continuación, conviértalos en horas de GPU. Compáralo con el tráfico real y añade margen para los picos. A medida que aumenta la concurrencia, el total de tokens por segundo (TPS) aumenta hasta alcanzar un punto de saturación, más allá del cual el rendimiento puede disminuir. Es importante comprender cuántas solicitudes puede gestionar su sistema en un plazo determinado para planificar la capacidad y gestionar los costos de manera eficaz. Tenga en cuenta que el rendimiento real puede diferir de estas estimaciones debido a las variaciones del hardware y a los factores de infraestructura, por lo que debe validarlo siempre con los datos de implementación reales.
La evaluación comparativa del rendimiento de LLM y la evaluación del rendimiento de LLM mediante métricas clave son fundamentales para garantizar despliegues confiables y eficientes. El seguimiento de estas métricas ayuda a los equipos a comprender la capacidad del sistema, identificar los cuellos de botella y optimizar el uso de los recursos.
Rastrea al menos:
Las métricas comunes de evaluación comparativa incluyen el tiempo hasta el primer token (TTFT) y los tokens por segundo (TPS), que son esenciales para evaluar el rendimiento del sistema. La evaluación comparativa de los LLM es esencial para evaluar su rendimiento y eficiencia en aplicaciones del mundo real, ya que ayuda a los equipos a identificar las áreas de mejora y optimización. La evaluación del rendimiento de los LLM implica el uso de varias herramientas que definen, miden y calculan las métricas de manera diferente. La evaluación comparativa del rendimiento ayuda a identificar los problemas relacionados con la eficiencia y la optimización del modelo. La combinación de las pruebas de carga y la evaluación comparativa del rendimiento proporciona una comprensión integral de las capacidades de implementación de LLM. El análisis de la curva de latencia también es importante para comprender el equilibrio entre el tamaño del lote y la latencia, y cómo las diferentes configuraciones afectan al rendimiento y a los tiempos de respuesta.
Alerta cuando el TTFT aumenta o el TPS cae bajo carga constante. Esto suele ser una señal de presión sobre la memoria, de una mala gestión de los lotes o de cuellos de botella en el rendimiento.
Cierre TLS, rote las claves, mantenga el alcance del acceso y evite registrar las solicitudes sin procesar a menos que sea necesario. Si trabajas en Europa, conserva y elimina los datos por región y conserva y elimina los documentos.
¡Prueba Compute hoy mismo!
Los terminales de cómputos usan HTTPS de forma predeterminada. Elige una ubicación europea para mantener los datos en la región.
Hazlo tuyo si necesitas un control total y tienes tiempo para ajustarlo. Utilice un terminal dedicado y gestionado si quiere rentabilizar rápidamente y gastar de forma predecible. Mantén una ruta de salida en cualquier dirección. Los servidores vLLM de Compute proporcionan un punto final dedicado con Rutas compatibles con OpenAI. Cambie la URL base en su SDK y empiece a funcionar.
El tiempo que transcurre hasta el primer token es el intervalo entre enviar un mensaje y ver el primer token. El TTFT corto mejora la velocidad percibida y la confianza. La gente siente este número más que ningún otro. La latencia de solicitud de extremo a extremo (e2e_latency) incluye el tiempo transcurrido desde que se envía una solicitud hasta que se recibe el token final, lo que proporciona una medida más amplia de la experiencia del usuario.
Depende del tamaño del modelo, la longitud del contexto y el procesamiento por lotes. Un modelo 7B bien ajustado con instrucciones breves y transmisión puede ser útil para muchos usuarios con una sola tarjeta de 24 GB. Los contextos largos reducen ese número rápidamente.
No siempre. Los contextos prolongados son sencillos pero costosos. RAG mantiene las solicitudes ajustadas y le permite escalar la recuperación de forma independiente. Muchos equipos utilizan un híbrido.
Inicie una sola GPU si puede. Cambie a varias GPU cuando la memoria o el rendimiento lo exijan. Prueba los modos paralelos y comprueba el estado de la caché.
Sí. Coloque el terminal en una región de la UE, utilice HTTPS, controle el acceso y defina políticas de retención claras.
La inferencia de LLM es el proceso en el que un modelo de lenguaje grande genera una respuesta basada en una solicitud de entrada mediante el procesamiento de tokens a través de su red neuronal. Durante la inferencia, el LLM procesa la solicitud activando su amplia red de parámetros para predecir la secuencia de fichas más probable. Los LLM pueden procesar grandes volúmenes de texto y proporcionar resúmenes concisos de artículos o documentos.
La inferencia de LLM generalmente implica dos etapas: la fase de prellenado, en la que se procesan los tokens de entrada, y la fase de decodificación, en la que el modelo genera los tokens de salida uno por uno.
El entrenamiento implica ajustar los parámetros del modelo utilizando grandes conjuntos de datos, mientras que la inferencia utiliza el modelo entrenado para generar resultados sin cambiar sus parámetros. Los LLM pueden generar artículos, historias, textos de marketing e incluso código.
Se trata de sistemas de software diseñados para ejecutar de manera eficiente los LLM a fin de generar resultados, optimizando la latencia, el rendimiento y el uso de los recursos.
vLLM es un motor de inferencia centrado en una sólida concurrencia con un procesamiento continuo por lotes y una administración eficiente de la caché de valores clave para optimizar el servicio de LLM.
El LLM se refiere al modelo de lenguaje grande en sí mismo, mientras que el vLLM es un motor o marco para ofrecer LLM de manera eficiente en producción.
vLLM está optimizado para una alta concurrencia y rendimiento, lo que a menudo hace que sea más rápido atender múltiples solicitudes en comparación con Ollama, que es más adecuado para configuraciones más simples.
Porque utiliza el procesamiento continuo por lotes y la paginación inteligente de la caché de valores clave para maximizar el uso de la GPU y reducir la latencia.
La prestación de LLM se refiere a la implementación y ejecución de modelos lingüísticos de gran tamaño para responder a las solicitudes de los usuarios en tiempo real o en modo por lotes.
Es una plataforma o software que aloja y administra los LLM, gestionando las solicitudes de inferencia de manera eficiente.
Un servidor configurado para ejecutar cargas de trabajo de inferencia de LLM, que proporciona acceso a las predicciones del modelo a través de API u otras interfaces.
Se refiere al uso de los LLM para evaluar o puntuar los resultados, como evaluar la calidad del modelo o clasificar las respuestas.
Los tokens por segundo (TPS) miden cuántos tokens genera o procesa un LLM en un segundo, lo que indica el rendimiento.
El TPS de ChatGPT varía según la implementación y el hardware, pero normalmente oscila entre unas pocas docenas y más de cien tokens por segundo.
Aproximadamente 750 palabras en inglés, ya que una ficha corresponde aproximadamente a 0,75 palabras.
Un símbolo es la unidad de texto más pequeña que procesa un modelo lingüístico, que puede ser una palabra, una subpalabra o un carácter.
El tiempo hasta el primer token (TTFT) es la latencia desde el envío de una solicitud hasta la recepción del primer token generado.
Registrando la diferencia de tiempo entre enviar una solicitud y recibir el primer token de salida del modelo.
El tiempo por token de salida (TPOT) mide el tiempo promedio que se tarda en generar cada token de salida después del primero.
Es la medición del TTFT que realiza Nvidia y se centra en las métricas de latencia durante la inferencia de LLM en el hardware de Nvidia.
Una caché de valores clave almacena los resultados de atención intermedios durante la decodificación para evitar volver a calcular los tokens anteriores.
Es el almacenamiento de datos de caché de valores clave en la memoria de la GPU para acelerar la generación de tokens LLM.
La caché KV contiene las claves y los valores de los tokens anteriores para calcular de manera eficiente la atención a los nuevos tokens.
Estructura de datos que almacena pares de claves y valores, que se utiliza en los LLM para almacenar en caché los cálculos intermedios.
Una técnica en la que las solicitudes entrantes se agrupan por lotes de forma continua para maximizar la utilización y el rendimiento de la GPU.
Un lote de solicitudes de inferencia que se forman de forma dinámica a medida que llegan y se procesan sin esperar intervalos fijos.
El procesamiento continuo por lotes forma lotes de forma dinámica y continua, mientras que el procesamiento por lotes en curso se refiere a las solicitudes que se están procesando actualmente.
En la banca, el procesamiento por lotes se refiere a agrupar transacciones para procesarlas de manera colectiva, sin relación con el servicio de LLM.
El rendimiento es la cantidad de tokens o solicitudes que un LLM puede procesar por segundo; la latencia es el tiempo que se tarda en generar respuestas.
Optimizando las estrategias de procesamiento por lotes, utilizando hardware eficiente, reduciendo la longitud de la secuencia de entrada y aprovechando el almacenamiento en caché.
Una latencia de 40 ms es mejor, ya que significa tiempos de respuesta más rápidos.
Alto costo computacional y latencia, especialmente para modelos grandes con contextos largos.
Es el número de fichas o solicitudes que un LLM puede procesar por segundo en determinadas condiciones.
Midiendo los tokens generados a lo largo del tiempo bajo cargas y simultaneidad controladas.
La inferencia de LLM requiere principalmente un uso intensivo de la GPU debido a los grandes cálculos matriciales.
Mediante el procesamiento por lotes de solicitudes, el uso de motores de inferencia optimizados y la implementación en GPU potentes.
Por lo general, se utilizan GPU con mucha memoria y ancho de banda de memoria, como Nvidia RTX 4090 o A100.
Sí, la inferencia y el entrenamiento de LLM dependen en gran medida de las GPU para la computación en paralelo.
Para los modelos grandes, se recomienda una GPU; los modelos pequeños pueden funcionar con CPU pero con un rendimiento reducido.
Sí, el RTX 4090 ofrece una alta capacidad de procesamiento y VRAM adecuada para muchas tareas de inferencia de LLM.