Por qué tu LLM es lento y qué debes solucionar primero

Las respuestas lentas suelen deberse a tres motivos: las solicitudes son demasiado grandes, los lotes tienen un mal formato o la caché no tiene espacio. Corríjalos antes de comprar más GPU.

Prueba Compute hoy: Lanza un dedicado VLLM punto final activado Calcular en Francia (UE), EE.UU., o EAU. Establece límites estrictos, mantén el tráfico dentro de la región y mide el TTFT/TPS con tus propias indicaciones.

Síntomas y causas probables

Varios factores, como el tamaño de las solicitudes, el procesamiento por lotes y el estado de la caché, influyen en el rendimiento de LLM.

Symptom	Likely cause	What to check first
High TTFT, normal TPS	Long prompts, cold cache, network distance	Prompt tokens, region, cache hit rate
Good TTFT, low TPS	Oversized outputs, weak batching, client not streaming	max_tokens, batch size at decode, streaming on?
TTFT rising with load	Cache pressure, queue growth	GPU memory headroom, queue length, context caps
Random timeouts	Gateway buffering, too‑short timeouts	Proxy settings, client timeouts, SSE config
Performance swings	Mixed batch shapes, noisy neighbors	Per‑route caps, dedicated GPUs, batch logs

Clasificación rápida (lista de verificación de 5 minutos)

Región — ¿el punto final está cerca de los usuarios?
Streaming — ¿Stream: es verdadero?
Gorras — ¿Se establecen max_tokens y límites de contexto por ruta?
Tamaño rápido — recorta el historial y las indicaciones del sistema; apunta a las entradas cortas. Nota: Un tamaño de entrada más corto puede mejorar las métricas de rendimiento, como los tokens por segundo (TPS), ya que los tokens de entrada influyen en las mediciones del TPS.
Espacio para la cabeza — GRAMO ≥ 10— 20% ¿gratis en las horas punta?
Fila — ¿La longitud de la cola es constante bajo carga o está aumentando?
Registros — ¿graban TTFT/TPS por solicitud con los ID de solicitud?

Soluciones rápidas (hoy)

Lado del cliente

Activa la transmisión. Los usuarios se detienen pronto; el TTFT se siente más rápido; el TPS mejora.
Recorta las indicaciones. Elimine el texto repetitivo, reduzca el historial y mantenga los ejemplos al mínimo.
Apriete las tapas. Establece max_tokens por ruta (chat: 128—256; resúmenes: 256—512).
Vuelve a intentarlo con fluctuación. Solo en 429/5xx/tiempos muertos; límite de intentos.
Aborta al detener. Conecta un botón de parada que cancela la transmisión a espacios libres en el servidor.

Lado del servidor

Forma de lote del tamaño correcto. Mantenga muchas decodificaciones pequeñas en lugar de unas pocas largas.
Proteja la memoria caché. Haga cumplir los límites de contexto; desaloje de manera justa; observe acertar o fallar.
Deshabilitar el almacenamiento en búfer de proxy en rutas de streaming; establece tiempos de espera para mantenerse vivo.
Límites basados en los tokens. Configure la simultaneidad entre TPM y por tecla para evitar la inanición.
Modelos de alfileres. Evite las actualizaciones inesperadas que cambian la velocidad.

Soluciones duraderas (este trimestre)

Cambie al procesamiento por lotes continuo. Admita o retire solicitudes en cada paso; mida la equidad. Usa las herramientas adecuadas para optimizar el rendimiento del procesamiento por lotes y gestionar la complejidad para lograr el máximo rendimiento, especialmente en el hardware de NVIDIA.
Adopte RAG en contextos prolongados. Busca solo lo que necesitas; las solicitudes se reducen; el TTFT desaparece.
Cuantifique sabiamente. Probar int8 primero; int4 solo después de los controles de calidad. La arquitectura del modelo subyacente afecta a la compatibilidad y el rendimiento con los diferentes métodos de cuantificación. Los modelos cuantificados se pueden ejecutar de manera eficiente en las CPU, especialmente en entornos de recursos limitados. Asegúrese de utilizar las instrucciones de línea de comandos correctas para la configuración de la cuantificación y asegúrese de que está instalada la versión correcta de las bibliotecas o los controladores.
Coloque los puntos finales por región. La UE en Francia; EE. UU. en EE. UU. y Oriente Medio en los Emiratos Árabes Unidos.
Considera la posibilidad de usar varias GPU solo después de demostrar que las tapas y el caché están en buen estado. Al escalar, tenga en cuenta el tamaño del modelo: la cantidad de parámetros afecta tanto a los requisitos de rendimiento como a los de recursos.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Cuantificación y otras técnicas avanzadas

La cuantificación le ayuda a ejecutar modelos lingüísticos de gran tamaño con mayor rapidez y a utilizar menos memoria. Convierte los pesos de los modelos de formatos de mayor precisión, como los flotantes de 16 bits, a los de menor precisión, como los enteros de 4 bits. Esto reduce el tamaño del modelo y reduce las necesidades de memoria. Una mayor parte de su modelo y su caché kV caben en la memoria de la GPU, por lo que obtiene un acceso a los datos más rápido y una latencia más baja cuando se ejecuta el modelo. Cuando creas IA generativa, esto se traduce en un mejor rendimiento y menores costes, tanto si gestionas muchas solicitudes como si trabajas con modelos más grandes.

Tiene varios métodos de cuantificación para elegir. Cada uno viene con ventajas y desventajas. Las técnicas posteriores a la formación, como el GPTQ y el AWQ, funcionan bien para los LLM. AWQ utiliza un enfoque basado en datos y basado en el hardware para comprimir el peso de los modelos. Con frecuencia, ofrece un mejor rendimiento y una menor pérdida de precisión en los modelos modernos ajustados a las instrucciones. Elija el método adecuado para sus necesidades. Los modelos más pequeños y de menor precisión aumentan la velocidad y reducen los costos, pero pueden afectar la calidad de salida si no se realizan pruebas minuciosas.

El procesamiento continuo por lotes mantiene su servicio de LLM con un alto rendimiento. En lugar de esperar a recibir un lote completo de solicitudes, procesa varios tokens y solicitudes a medida que llegan. La GPU permanece ocupada con un tiempo de inactividad mínimo. Los marcos como vLLM utilizan este enfoque. Gestionan muchos tokens de salida y solicitudes nuevas al mismo tiempo, lo que mejora tanto el rendimiento como la rapidez con la que los usuarios ven las respuestas. Cuando necesitas una latencia baja y una alta capacidad de respuesta, el procesamiento continuo por lotes funciona.

FlashAttention acelera los LLM a través de mejores mecanismos de atención. Reestructura el cálculo de la atención para reducir los cuellos de botella del ancho de banda de la memoria. Su modelo puede procesar secuencias más largas y contextos más grandes de manera más eficiente. Esto ayuda cuando se trabaja con grandes cantidades de datos o se generan resultados largos.

Sus opciones de hardware y configuración son importantes. Utilice GPU con suficiente caché de kV y optimice su jerarquía de memoria. Elige el tamaño de modelo y la longitud de secuencia correctos para lo que estás creando. Equilibrará la velocidad, el costo y la calidad de salida. Los modelos más grandes suelen ofrecer mejores resultados, pero necesitan más recursos. Los modelos más pequeños funcionan más rápido y cuestan menos.

Combine la cuantificación, el procesamiento continuo por lotes y técnicas como FlashAttention. Obtendrá un mejor rendimiento, una latencia más baja y unos costes reducidos para sus modelos lingüísticos de gran tamaño. Comprenda las ventajas y desventajas y adapte su enfoque a sus necesidades específicas. Puede ofrecer servicios de IA generativa más rápidos y eficientes sin gastar más en hardware.

Un plan de pruebas que detecta los problemas reales

Set de semillas — 30—60 mensajes reales (cortos o largos). Por ejemplo, un mensaje corto puede generar una salida mucho mayor que su entrada, lo que ilustra cómo el tamaño de la salida puede diferir significativamente del tamaño de la entrada.
Rampa — aumentar el RPS hasta TTFT p95 cruza tu objetivo. Al medir el TTFT/TPS, ten en cuenta que los tokens se procesan durante la inferencia y que los tokens de salida por segundo son una métrica de generación de claves.
Mezcla — combine indicaciones cortas y largas para exponer problemas de equidad.
Cancele las tormentas — asegúrese de que la caché KV se libere rápidamente al abortar.
Intercambio en caliente — cambiar el modelo/la cuantificación; comparar el TTFT/TPS y la calidad con los modelos anteriores. Al realizar las pruebas, incluya nuevos modelos para evaluar las mejoras.
Simulacro de fallo — eliminar un nodo; comprobar los reintentos y los mensajes de usuario.

Realice un seguimiento del progreso en varias iteraciones de prueba para supervisar las mejoras e identificar los problemas. Al analizar los resultados, revise el contenido generado para comprobar su calidad y relevancia. Tenga en cuenta un error común en la planificación de las pruebas: asumir la cuantificación principalmente acelera los cálculos, cuando en realidad mejora principalmente la eficiencia de la memoria y el ancho de banda. Durante la tokenización, recuerde que los tokens pueden representar una palabra, una parte de una palabra o un signo de puntuación, lo que afecta a la forma en que se procesan y evalúan los datos.

Prueba Compute hoy: Ejecute un VLLM servidor en Calcular. Colócalo cerca de los usuarios, mira TTFT/TPS y escala solo cuando los números te lo indiquen.

Corrija TTFT y TPS antes de comprar más GPU

Comience con las instrucciones, los límites y la transmisión, y céntrese en optimizar estas áreas antes de considerar las actualizaciones de hardware. Mantenga la caché en buen estado y los lotes estables. Coloque el terminal cerca de los usuarios. ¿Cuándo TTFT gotas y tokens/segundo sube, has resuelto el verdadero problema, no solo lo has enmascarado con hardware.

PREGUNTAS MÁS FRECUENTES

¿Qué es TTFT y por qué es importante?

El momento de dar el primer token es cuando los usuarios sienten la velocidad. El TTFT largo indica mensajes grandes, cachés fríos o regiones lejanas.

¿Cómo puedo obtener más TPS sin afectar la latencia?

Mantenga los resultados cortos, dé forma a los lotes para muchas decodificaciones pequeñas y aplique límites basados en los tokens para que los trabajos grandes no priven a otros.

¿Los contextos más largos siempre ayudan?

No. Los contextos prolongados aumentan los costos y el TTFT. Usa la recuperación para que las instrucciones sean breves.

¿Cuándo debo pasarme a la multiGPU?

Solo cuando el modelo o la caché ya no se ajusten y ya hayas ajustado las indicaciones, los límites y la programación.

¿Cómo puedo saber si el problema es la caché kv?

Observe el margen de ampliación de la memoria de la GPU y la tasa de aciertos de la caché Si el TTFT aumenta y el margen de ampliación se reduce, ajusta el contexto y elimina las transmisiones atascadas.

‍

Cuando los estudiantes de IA superan el entorno limitado: cómo DSTI amplió su acceso a la GPU con Hivenet

La Escuela de Ingeniería DSTI se asoció con Hivenet para ofrecer a los estudiantes de máster un acceso más uniforme a una computación GPU europea asequible para proyectos reales de aprendizaje profundo.