
Los usuarios sienten un retraso antes de ver las palabras. La baja latencia es crucial para una buena experiencia de usuario y para optimizar el rendimiento de un modelo, ya que minimizar los tiempos de respuesta afecta directamente a la percepción de los usuarios sistemas de IA generativa. Los sistemas fallan cuando las colas se alargan y la memoria se agota. Un pequeño conjunto de métricas puede avisarle con antelación e indicar la solución correcta. El seguimiento de estas métricas es crucial para garantizar la confiabilidad del sistema y mantener el rendimiento del modelo. Mantén la lista corta, conéctala bien y haz que las alertas sean aburridas.
En Compute, un VLLM punto final le ofrece una URL HTTPS con rutas al estilo de OpenAI y una capacidad predecible. Colócala cerca de los usuarios y, a continuación, observa el margen de ampliación de TTFT, TPS y caché.
Estas son las principales métricas de rendimiento para la inferencia de LLM. Diversos factores, como la complejidad de las solicitudes de entrada, el uso de los recursos y la configuración del sistema, influyen en estas métricas. Se utilizan herramientas de supervisión y diferentes métodos para rastrearlos y analizarlos.
Tiempo hasta el primer token (TTFT). Brecha entre el envío de la solicitud y el primer token. El número más importante para los tiempos de respuesta percibidos y la experiencia del usuario. El mecanismo de atención y el tiempo de prellenado contribuyen en gran medida a la demora antes de recibir el primer token, ya que el modelo procesa los tokens de entrada y crea su caché de valores clave antes de generar respuestas. Pista p50 y p95. El símbolo final marca el final de una respuesta.
Tokens por segundo (TPS). Rendimiento una vez que se inician los tokens. Cuanto más alto, mejor para la experiencia de usuario y la capacidad. El TPS se calcula en función del número de solicitudes que se procesan y del número de tokens de salida generados por segundo para todas las solicitudes, que a menudo se miden junto con las solicitudes por segundo. La latencia entre tokens es el tiempo promedio entre tokens consecutivos, y el TPS total es una métrica clave para el rendimiento del sistema. Un cálculo eficiente de la atención puede ayudar a reducir la latencia entre tokens. Rastrea los números p50 y p95.
Longitud de la cola. Solicitudes en espera de un espacio de descodificación. El aumento de longitud con tráfico plano equivale a problemas.
Espacio libre de memoria de la GPU. VRAM libre durante los picos. El bajo margen de maniobra predice las fallas, los arranques lentos y los desalojos. Al supervisar la memoria de la GPU, se deben tener en cuenta las implicaciones en cuanto al uso de los recursos y los costos.
Tasa de aciertos de caché. Estado de la caché KV y de cualquier caché de mensajes. Los índices de aciertos más bajos suelen explicar la fluencia del TTFT.
Tiempo de prellenado frente a tiempo de decodificación. El tiempo de prellenado se ve afectado por la solicitud de entrada y la cantidad de tokens de entrada, ya que estos factores determinan cuánto tiempo pasa el modelo en la fase de prellenado antes de la decodificación.
Porcentaje de errores por tipo. La complejidad y otros factores pueden influir en las tasas de error, por lo que el seguimiento por tipo ayuda a identificar las causas fundamentales.
Nota: Estas métricas pueden variar según la configuración del sistema, la complejidad de la carga de trabajo y el proveedor de servicios.
Tasa de solicitud (RPS). Se empareja con la longitud de la cola para explicar la presión. La tasa de solicitudes se calcula normalmente como solicitudes por segundo, lo que proporciona una medida cuantitativa del rendimiento del sistema.
Tiempo de prellenado frente a tiempo de decodificación. Dividirlos ayuda a aislar las solicitudes largas de la generación lenta. La solicitud de entrada y la cantidad de fichas de entrada son factores clave que afectan al tiempo de prellenado, ya que las solicitudes más complejas o prolongadas pueden aumentar la duración del procesamiento.
Porcentaje de errores por tipo. OOM, tiempos de espera, 4xx/5xx. Agrupe por ruta y modelo. La complejidad y otros factores pueden influir en las tasas de error, por lo que es importante analizar los tipos de error en su contexto.
Latencia de red. RTT de terminales de Client ↔ por región. Los picos aquí pueden simular la lentitud del servidor.
Relojes y térmicas. La aceleración se muestra como un TPS plano y un TTFT en aumento. Supervisar el uso y el costo de los recursos es importante a la hora de evaluar el margen de ampliación de la memoria de la GPU o las tasas de error, ya que pueden afectar tanto al rendimiento como al presupuesto.
Las métricas de apoyo se rastrean mediante herramientas de monitoreo para garantizar una observabilidad integral y la detección oportuna de los problemas.
La instrumentación eficaz para la observabilidad de la LLM se basa en herramientas de monitoreo y varios métodos para garantizar un seguimiento y un análisis exhaustivos.
Los paneles se crean utilizando herramientas de supervisión para visualizar las métricas clave de rendimiento de los modelos lingüísticos de gran tamaño (LLM).
«¿Los usuarios se sienten lentos en este momento?»
TTFT p50/p95 a lo largo del tiempo con superposición de tráfico. Realice perforaciones por región y modelo. Los tiempos de respuesta y las respuestas son indicadores clave de la experiencia del usuario.
«¿Podemos llevar más carga?»
TPS p50/p95, longitud de cola y margen de memoria de la GPU. TPS plano y cola en aumento = aún no.
«¿Por qué aumentó la latencia?»
Divida la precarga frente a la decodificación, añada la red RTT. Relleno largo → los mensajes son demasiado grandes. Decodificación larga → tapas o forma de lote.
«¿Estamos desperdiciando fichas?»
Distribución de los tokens de salida en función de sus límites. Gran cola = ajustes sueltos.
Nota: Las métricas del panel deben interpretarse en su contexto, ya que las variaciones en las condiciones de medición o las configuraciones del modelo pueden afectar a los resultados.
Establece umbrales que puedas defender. Ejemplos para empezar:
Defina un objetivo de nivel de servicio (SLO), como «TTFT p95 ≤ 800 ms y tasa de error ≤ 1% en 28 días». Un SLO suele formar parte de un acuerdo de nivel de servicio (SLA), que es un contrato formal entre el proveedor de servicios y el usuario en el que se especifican los estándares de rendimiento y calidad. Rastrea el presupuesto de error y página cuando la grabas demasiado rápido.
Utilice herramientas de supervisión y diferentes métodos para realizar un seguimiento de los SLO y las métricas de rendimiento. Para las alertas, seleccione el método que mejor se adapte a sus necesidades operativas.
Nota: Los SLO deben adaptarse a las necesidades del proveedor de servicios y de los usuarios para garantizar que sean significativos y procesables.
Estas son métodos comunes para las pruebas de carga:
Nota: Los resultados pueden variar según el método utilizado y la configuración del sistema.
Nota: Estas dificultades pueden provocar un aumento de los costos operativos y un uso ineficiente de los recursos si no se administran adecuadamente.
Centrarse en las métricas esenciales es más eficaz que hacer un seguimiento de demasiadas. Métricas pequeñas y estables superaron una pared de listas. Vea TTFT y TPS, mantenga las colas cortas y deje espacio libre en la memoria. Corrija las instrucciones y las mayúsculas antes de cambiar el hardware.
Nota: La simplicidad es clave: priorice las métricas esenciales para evitar una complejidad innecesaria.
Prueba Compute hoy
¿Prefieres operaciones predecibles? ¿Lanzar un VLLM punto final activado Calcular en Francia o los Emiratos Árabes Unidos, limite los tokens y realice un seguimiento de TTFT/TPS desde el primer día.
Tiempo hasta el primer token: la demora antes de que comience la salida del modelo, específicamente el tiempo que lleva crear el primer token nuevo. Los usuarios lo perciben más que cualquier otra métrica.
Suficiente para mantener un chat fluido y tener pocas colas para el tráfico. Mida con sus indicaciones. El TPS total (tokens por segundo) refleja el rendimiento de todas las solicitudes y depende del número de solicitudes que se gestionen a la vez. Optimice la forma y los límites de los lotes para aumentarlos.
Los cinco principales cubren la mayoría de los problemas: TTFT, TPS, longitud de cola, margen de memoria de la GPU y tasa de aciertos de caché. Estas son las métricas de rendimiento esenciales para supervisar los LLM. Existen varios métodos para rastrear estas métricas, según su infraestructura y sus necesidades de evaluación. Agregue la tasa de solicitudes y los tipos de error para tener en cuenta el contexto.
Utilice tráfico sintético en un entorno de ensayo o aumente temporalmente los umbrales de producción y dispare una ráfaga controlada. Se pueden usar herramientas de monitoreo y varios métodos para probar los sistemas de alertas de manera eficaz.
Es útil cuando se ejecutan varios nodos o una puerta de enlace. El rastreo distribuido es una de las diversas herramientas y métodos de monitoreo para la observabilidad del sistema. Comience con los ID de solicitud y borre los intervalos; añada el rastreo a medida que vaya creciendo.
El TTFT, o Time to First Token, mide el retraso desde que se envía una solicitud hasta que se recibe el primer token de la salida del modelo. Esta métrica incluye el tiempo de prellenado, durante el cual el mecanismo de atención procesa la entrada y crea la caché de valores clave necesaria para crear el primer token. Es una métrica fundamental para la percepción de la capacidad de respuesta.
El TTFT se calcula midiendo el tiempo que lleva crear el primer token nuevo. Esto implica registrar la marca de tiempo cuando se envía una solicitud y la marca de tiempo cuando llega el primer token de salida, y luego calcular la diferencia.
El TPOT (tiempo por token de salida) es el tiempo promedio que se tarda en generar cada token después del primero, lo que refleja la velocidad de generación del token en estado estacionario. En concreto, el TPOT mide la latencia entre los tokens entre los tokens consecutivos producidos por el modelo. Un cálculo eficiente de la atención puede ayudar a reducir esta latencia entre los tokens, lo que mejora la eficiencia general de la decodificación.
TPS son las siglas de Tokens Per Second e indica cuántos tokens puede generar un modelo por segundo durante la inferencia, midiendo el rendimiento. El TPS está estrechamente relacionado con las solicitudes por segundo, ya que ambas métricas ayudan a evaluar el rendimiento del sistema. El TPS total mide el rendimiento general de todas las solicitudes que se gestionan simultáneamente, lo que refleja la capacidad del sistema para generar señales de salida por segundo para todas las solicitudes combinadas.
Un token por segundo es una unidad que mide la cantidad de tokens producidos por el modelo cada segundo durante la generación de la salida. Esta métrica se calcula dividiendo la cantidad de tokens generados por el tiempo transcurrido.
Por lo general, ChatGPT genera tokens a una velocidad de entre 20 y 30 tokens por segundo, según la carga del servidor y la versión del modelo.
Nota: El TPS puede variar según las métricas de rendimiento, como la latencia y el rendimiento, así como las condiciones del sistema.
Aproximadamente 750 palabras corresponden a 1000 fichas, ya que una ficha tiene un promedio de alrededor de 0,75 palabras en inglés. La proporción entre palabras y fichas se calcula en función de la longitud media de las palabras y del proceso de tokenización.
Siete tokens por segundo son relativamente lentos para muchas aplicaciones en tiempo real, pero pueden ser aceptables para generaciones más largas y menos urgentes.
La inferencia se mide mediante diferentes métodos, que incluyen el seguimiento de las métricas de rendimiento, como la latencia (TTFT, tiempo total de generación) y el rendimiento (TPS).
Los ejemplos incluyen la finalización de textos, la respuesta a preguntas, la traducción, el resumen y la generación de código. Todos estos son ejemplos de respuestas generadas como resultado del modelo.
El proceso de inferencia comienza con la solicitud de entrada, que se tokeniza en fichas de entrada. El mecanismo de atención procesa estos tokens de entrada durante el tiempo de prellenado, creando la caché de valores clave necesaria para que el modelo genere una respuesta. Esta fase de prellenado es crucial para crear el primer token nuevo, que marca el inicio de la generación del token de salida. Luego, el modelo continúa decodificando y generando los tokens de salida hasta que se complete la respuesta.
En los tribunales, la inferencia se refiere a una conclusión a la que se llega basándose en pruebas y razonamientos en lugar de declaraciones explícitas.
La observabilidad es la capacidad de comprender el estado interno de un sistema mediante el análisis de sus resultados, como registros, métricas y rastreos, utilizando herramientas de monitoreo y varios métodos para evaluar e interpretar el proceso y los resultados.
La supervisión utiliza métricas y alertas predefinidas y, a menudo, se basa en herramientas de supervisión y métodos específicos para realizar un seguimiento del estado del sistema. Tanto la observabilidad como el monitoreo utilizan herramientas y métodos de monitoreo, pero la observabilidad permite el análisis exploratorio sin conocimientos previos, lo que ofrece una comprensión más profunda del proceso y proporciona información más profunda.
Las métricas, los registros y los rastreos son los tres pilares que proporcionan una visibilidad integral del sistema, respaldada por varias herramientas y métodos de monitoreo.
En DevOps, la observabilidad ayuda a los equipos a detectar, diagnosticar y resolver problemas de forma proactiva mediante la recopilación y el análisis de datos de telemetría. La observabilidad se basa en herramientas de monitoreo y varios métodos para analizar el proceso y garantizar la detección y resolución efectivas de los problemas.
Una caché KV (clave-valor) almacena pares clave-valor intermedios durante la inferencia del modelo para acelerar la generación de fichas y permite un cálculo eficiente de la atención durante la inferencia.
La caché KV de la GPU se refiere al almacenamiento de pares clave-valor en la memoria de la GPU para optimizar los cálculos de atención durante la inferencia de LLM, lo que permite un cálculo de atención eficiente.
La caché KV contiene claves de atención y valores previamente calculados para evitar cálculos redundantes al generar nuevos tokens. Esta caché es esencial para un cálculo eficiente de la atención, ya que permite un procesamiento más rápido y óptimo durante la generación de los tokens.
Una caché de almacenamiento de valores clave es una estructura de datos que almacena datos indexados mediante claves únicas para una recuperación rápida.
El rendimiento es una métrica clave de rendimiento que representa la cantidad de trabajo realizado o la producción producida por un sistema en un tiempo determinado, como los tokens generados por segundo. Por lo general, el rendimiento se calcula dividiendo la producción entre el tiempo y se puede medir con diferentes métodos según el enfoque de evaluación.
El rendimiento mide los datos procesados reales a lo largo del tiempo, mientras que el ancho de banda es la velocidad máxima de transferencia de datos posible. Tanto el rendimiento como el ancho de banda son métricas de rendimiento importantes a la hora de evaluar la eficiencia del sistema.
El rendimiento es una métrica de rendimiento que se calcula en fichas por segundo. Por ejemplo, la generación de 100 tokens por segundo durante la inferencia del LLM demuestra el rendimiento.
Velocidad de salida o velocidad de procesamiento.
Una latencia del percentil 95 inferior a 500 milisegundos generalmente se considera buena para las aplicaciones en tiempo real.
La latencia final de P95 es el valor de latencia por debajo del cual se completa el 95% de las solicitudes, lo que indica el peor rendimiento para la mayoría de los usuarios.
La latencia P50 es la latencia media, lo que significa que la mitad de las solicitudes se completan más rápido y la otra mitad más despacio que este valor.
No, p95 es una métrica de percentil que representa el valor por debajo del cual cae el 95% de las observaciones, no un promedio. Tanto el p95 como el promedio son tipos de métricas de rendimiento que se utilizan para evaluar y comparar el rendimiento del sistema.
Un presupuesto de errores define el umbral permitido de errores o brechas de latencia dentro de un período de servicio para equilibrar la confiabilidad y la innovación. Los presupuestos de errores suelen formar parte de un acuerdo de nivel de servicio (SLA) entre el proveedor de servicios y el usuario, y se basan en métricas de rendimiento, como la latencia y el rendimiento.
El presupuesto de errores se calcula mediante las siguientes métricas de rendimiento: presupuesto de errores = (1 - objetivo de SLO) × el total de solicitudes o el período de tiempo.
El SLO (objetivo de nivel de servicio) establece el objetivo de rendimiento como parte de un acuerdo de nivel de servicio entre el proveedor de servicios y el usuario, y se basa en las métricas de rendimiento; el presupuesto de errores cuantifica las desviaciones permitidas con respecto a ese objetivo.
Se produce un error presupuestario cuando se supera el presupuesto de error, lo que indica problemas de confiabilidad del servicio y posibles problemas con las métricas de rendimiento, como la latencia, el rendimiento u otros resultados de la evaluación comparativa.
La memoria de la GPU es la RAM dedicada de una unidad de procesamiento de gráficos que se utiliza para almacenar datos y cálculos durante el procesamiento. Es un aspecto clave del uso de los recursos, ya que la supervisión de la memoria de la GPU ayuda a realizar un seguimiento de la utilización general de los recursos y las métricas de rendimiento en las soluciones de observabilidad de LLM.
La memoria GPU necesaria depende del tamaño del modelo, el tamaño del lote, la precisión y el uso de los recursos y de varios factores, como el rendimiento, la latencia y la calidad de respuesta; los modelos y lotes más grandes requieren más memoria.
El uso de la memoria de la GPU se refiere a la asignación de la RAM de la GPU para los parámetros del modelo, los datos intermedios y el cálculo durante la inferencia. Esta es una forma de uso de los recursos, ya que el seguimiento del uso de la memoria de la GPU es esencial para comprender el rendimiento y la eficiencia generales del sistema.
Puedes comprobar el uso de la memoria de la GPU con herramientas como nvidia-smi en las GPU de NVIDIA, software de supervisión del sistema o herramientas de supervisión especializadas diseñadas para una observabilidad avanzada. Las herramientas de supervisión pueden ayudarte a controlar el uso de la memoria de la GPU, avisarte de los problemas y proporcionar métricas detalladas para una administración eficaz del sistema.