Una guía práctica para la cuantificación de LLM

La mayoría de los problemas de inferencia son problemas de memoria. La cuantificación reduce los pesos del modelo para que pueda ajusta el modelo y su caché a las GPU que tienes, haz lotes más profundos y mantén la latencia estable. El truco consiste en mantener la calidad dentro del rango de sus tareas. Además, el uso de la cuantificación puede reducir la huella de carbono en el entrenamiento y la inferencia debido a la reducción del consumo de energía.

Este artículo es un recurso estructurado y práctico distinto de un blog típico, que se centra en proporcionar información sistemática y pasos prácticos. Los lectores deben estar familiarizados con los conceptos básicos de inferencia y cuantificación de modelos antes de continuar. En este artículo, abordaremos los requisitos previos, los métodos de cuantificación y la evaluación para garantizar una comprensión integral del tema.

Prueba Compute hoy

En Calcular, puedes lanzar un VLLM servidor y elija variantes de modelos cuantificadas más pequeñas del catálogo. Establece los límites de contexto y salida, luego mide el TTFT y los tokens/segundo con tus propias instrucciones.

Qué hace la cuantificación

La cuantificación almacena pesos con menos bits que FP16/BF16. La cantidad de bits utilizados afecta directamente tanto al consumo de memoria como a la precisión del modelo. El modelo se ejecuta con núcleos de descuantificación ligeros, por lo que las matemáticas se mantienen lo suficientemente estables para la mayoría de las tareas. Sin embargo, la cuantificación uniforme estándar puede afectar gravemente a la representación de los valores atípicos y las activaciones, lo que reduce la precisión. La elección del ancho de bits y la estrategia de calibración óptimos durante la cuantificación requiere pruebas exhaustivas para equilibrar el ahorro de memoria y la precisión.

int8: buen valor predeterminado para la producción: alta ganancia de memoria con una pérdida de calidad mínima. El rango de valores que se pueden almacenar viene determinado por el ancho de bits, y los cero puntos se representan como valores enteros específicos dentro de este rango. El valor máximo del rango de datos se usa para escalar durante la cuantificación.
int4: mayor ganancia de memoria, decodificación a menudo más rápida con alta concurrencia, mayor riesgo de caídas de calidad en razonamientos complejos o resultados largos. El rango de valores y la forma en que se representan los puntos cero se definen de manera similar mediante el ancho de bits, y el valor máximo se utiliza nuevamente para escalar.
Nota: El ahorro real de memoria y la cantidad de parámetros afectados pueden variar según la implementación y la arquitectura del modelo.

La cuantificación no cambia la tokenización ni tu API. Cambia el uso y el rendimiento de la memoria. La cuantificación es un método para reducir el tamaño del modelo y mejorar la eficiencia mediante la asignación de valores de punto flotante a un conjunto más pequeño de valores discretos.

Métodos comunes en la naturaleza

AWQ (cuantificación del peso con reconocimiento de la activación). Este método se aplica en varios entornos de producción y cuantificación de melodías utilizando activaciones reales para que los canales importantes mantengan la precisión. En muchos modelos de chat, normalmente se consigue una mayor eficiencia de la memoria y unos buenos resultados de int4.
GPTQ. Cuantificación por canal después del entrenamiento con datos de calibración. Este método aplicado está ampliamente disponible; los resultados obtenidos varían según el tamaño del grupo y la configuración.
LLM.Int8//bits y bytes. Ruta int8 popular que conserva los pesos atípicos. Fiable cuando se desea una reducción rápida y segura.
Granos al estilo Marlin. Núcleos de GPU optimizados que aceleran los matmuls de bits bajos en las tarjetas compatibles.
Entrenamiento consciente de la cuantificación (QAT). Las técnicas avanzadas como el QAT tienen como objetivo minimizar la pérdida de precisión, pero requieren más recursos computacionales.

Elija lo que admite su pila de porciones y lo que su familia de modelos ofrece prefabricada. Evita las cadenas de herramientas únicas, a menos que planees mantenerlas.

Matemáticas de memoria que puedes hacer en una servilleta

El tamaño de peso base para el FP16 es de aproximadamente 2 bytes por parámetro.

Modelo 7B, FP16: ~14 GB para pesas
7B, int8: ~7—8 GB
7B, int4: ~3,5—4 GB

Los LLM más pequeños son generalmente más sensibles a la pérdida de información durante la cuantificación en comparación con los modelos más grandes.

Añadir Caché KV margen: aproximadamente hidden_size × num_layers × 2 (K/V) × seq_len × batch en bytes en tiempo de ejecución (la precisión depende del motor). Si la presión de la caché aumenta, el TTFT aumenta y los tokens/segundo disminuyen.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Velocidad y rendimiento

Esta sección se centra en el rendimiento y el procesamiento por lotes. La cuantificación puede aumentar el rendimiento porque puede procesar en lotes más solicitudes antes de que se agote la memoria. Además, la cuantificación puede mejorar el rendimiento y la eficiencia de los modelos de servicio al reducir el uso de la memoria y los requisitos computacionales. El prellenado aún puede depender del cálculo, por lo que las ganancias varían según el modelo, la longitud de las solicitudes y los núcleos. Mide según tus indicaciones. No prometas velocidad sin datos. A menudo es necesario evaluar las ventajas y desventajas a la hora de decidir utilizar modelos cuantificados en función de sus casos de uso.

Cuando ayuda

La cuantificación puede ser adecuada para los usuarios que se enfrentan a restricciones específicas de memoria o costos, por ejemplo, cuando:
De forma rutinaria, alcanzas los límites de VRAM o el desalojo de la caché bajo carga.
Quieres lotes de mayor tamaño con el mismo objetivo de latencia.
Debe instalar un modelo en menos GPU para reducir los costos.

Cuando duele

Razonamiento largo y de varios pasos con objetivos de precisión estrictos.
Tareas de seguridad o clasificación que son sensibles a pequeños cambios de puntuación.
Salidas muy largas en las que se acumulan los errores.

Ejemplos de aplicaciones

La cuantificación y el almacenamiento en caché KV no son solo técnicas modernas, sino que son herramientas fundamentales que hacen que los modelos lingüísticos funcionen de manera eficiente sin sacrificar la calidad. Tomemos como ejemplo arquitecturas transformadoras como la GPT: el almacenamiento en caché KV les permite gestionar secuencias de entrada más largas y, al mismo tiempo, consumir menos energía y memoria por inferencia. La facilidad de uso del almacenamiento en caché KV es particularmente pronunciada en los modelos de IA que generan textos más largos, ya que ayuda a mantener la eficiencia y el rendimiento. Cuando se despliega en dispositivos con limitaciones de recursos estrictas, cada byte y milisegundo es importante. El almacenamiento en caché de valores clave ayuda a acelerar la generación de texto en los modelos de IA al recordar información importante de los pasos anteriores.

La cuantificación reduce el consumo de memoria del modelo al reducir la precisión del peso. Obtiene inferencias más rápidas y, al mismo tiempo, mantiene alta la calidad del texto. Los métodos posteriores al entrenamiento, como el GPTQ, permiten implementar modelos lingüísticos de gran tamaño sin necesidad de volver a capacitarse, lo que resulta perfecto cuando se necesita un equilibrio entre el rendimiento y el uso de los recursos. La cuantificación posterior al entrenamiento (PTQ) cuantifica un modelo ya entrenado y es más rápida de implementar, pero puede reducir considerablemente la precisión. Las aplicaciones de PNL exigen un texto coherente y preciso desde el punto de vista del contexto, y sus modelos deben funcionar en diferentes dispositivos y entornos. El proceso de calibración es necesario para encontrar los valores mínimo y máximo para la cuantificación.

Crear modelos eficientes significa comprender cómo la cuantificación afecta a la precisión y cómo el almacenamiento en caché de KV reduce los costos computacionales. Querrá ejemplos de código y tutoriales claros que muestren el proceso de implementación. Compare los modelos cuantificados de int8 e int4 mediante tablas o diagramas; esto le ayudará a ver las ventajas y desventajas de la memoria, la velocidad y la calidad. Elija el enfoque que mejor se adapte a las necesidades de su aplicación. Los modelos lingüísticos habituales de gran tamaño requieren importantes recursos de hardware proporcionales a su tamaño.

Lograr que los modelos lingüísticos sean eficientes conlleva verdaderos desafíos. Es necesario mantener la calidad de los resultados en diversos temas y longitudes de entrada. El hardware tradicional tiene límites. Los modelos implementados deben generar resultados confiables cuando los usuarios reales los reciben con información del mundo real. Manténgase al día con los documentos de investigación, los artículos y las guías de implementación: le ayudarán a tomar decisiones inteligentes y a mejorar la eficiencia de sus modelos.

La cuantificación y el almacenamiento en caché KV ofrecen un impacto medible en el rendimiento y la eficiencia del modelo lingüístico. Concéntrese en estas técnicas y podrá implementar potentes soluciones de PNL que funcionen en muchos casos de uso. Mantenga bajo control el uso de la memoria, los costos de inferencia y la complejidad de la implementación.

Un ciclo de evaluación sencillo

Elige entre 30 y 100 mensajes reales que reflejen tu producto. Incluye estuches rígidos.
Definir comprobaciones: métricas automáticas (coincidencia exacta, BLEU/ROUGE si es relevante), además de una rápida revisión humana para comprobar la fidelidad. Los métodos de evaluación se aplican para recopilar pruebas del desempeño del modelo, y la retroalimentación humana es valiosa para evaluar la fidelidad y la calidad.
Ejecute la línea base del FP16 en el hardware de destino. Registre las puntuaciones de TTFT, tokens/segundo y de cualquier tarea crítica.
Pruebe int8, luego int4 en el mismo hardware y configuración. Mantenga los límites de contexto y salida idénticos.
Comparar deltas: calidad, TTFT, tokens/segundo y margen de memoria de la GPU. Las diferencias de calidad y rendimiento se determinan comparando estas métricas.
Decidir: envíe int8 si la calidad está dentro de los límites de tolerancia; considere int4 solo si la calidad se mantiene en sus tareas.

Los resultados se pueden presentar en tablas o gráficos para mayor claridad.

Plan de implementación que evita sorpresas

Tráfico en la sombra para un subconjunto de usuarios.
Barandas: limite los max_tokens, mantenga consistentes las penalizaciones por repetición y las secuencias de parada.
Reversión rápida mediante una bandera de función o una ruta de puerta de enlace. Los indicadores de funciones se pueden activar o desactivar para controlar el despliegue y revertir rápidamente los cambios si es necesario.
Tableros para TTFT/TPS, tasas de error y muestras de calidad. Los paneles y las herramientas de monitoreo se pueden integrar en el proceso de implementación para proporcionar una mejor visibilidad y garantizar un funcionamiento fluido.

Solución de problemas

Las salidas parecen concisas o genéricas. Esta sección ayuda a abordar los problemas comunes de cuantificación. Aumente ligeramente los max_tokens; compruebe si los tamaños de grupo son demasiado agresivos en los modelos int4.
La latencia mejoró, pero aumenta con la carga. La caché es escasa. Recorte las instrucciones, reduzca las mayúsculas o añada VRAM.
La calidad se tambalea en las tareas específicas. Mantén ese camino en la FP16 o prueba int8 con un manejo atípico para superar las caídas de calidad.
Zoom para charlas largas. Reduzca el historial, utilice RAG o cambie a un ajuste preestablecido más grande para superar los errores de OOM.

Últimos pensamientos

La cuantificación es una de las formas más limpias de ajustar los modelos, mantener las colas en buen estado y controlar el gasto. Comience con int8, mida sus datos y pase a int4 solo cuando los números indiquen que es seguro.

Comprender la palabra «cuantificación» es clave para tomar decisiones informadas sobre la optimización y el despliegue del modelo.

Para obtener más detalles técnicos y explicaciones detalladas, consulte las referencias proporcionadas por fuentes autorizadas.

Prueba Compute hoy

Lance un modelo cuantificado en un VLLM punto final en Calcular, conserve su cliente de OpenAI y compare TTFT y fichas por segundo en comparación con tu base de referencia antes del lanzamiento.

PREGUNTAS MÁS FRECUENTES

¿Qué es la cuantificación en los LLM?

Almacenamiento y computación con menos bits para los pesos de los modelos (y, a veces, para las activaciones) a fin de reducir el uso de la memoria y aumentar el rendimiento.

¿Los 4 bits son lo suficientemente buenos?

A menudo para charlas informales y resúmenes. Realice pruebas minuciosas para comprobar el razonamiento, el uso de herramientas y los resultados largos. En caso de duda, comience con int8.

¿La cuantificación siempre acelera las cosas?

No. Primero aumenta la capacidad al reducir la memoria. Las aceleraciones dependen de los núcleos, la forma del lote y la longitud de las solicitudes.

¿Qué pasa con la caché KV? ¿Se puede cuantificar?

Algunas pilas admiten una caché KV de menor precisión. Las ganancias varían y pueden afectar a la calidad. Trátelo como una opción avanzada una vez que la cuantificación del peso demuestre que es segura.

¿Tengo que volver a entrenar el modelo?

No para métodos posteriores al entrenamiento, como AWQ y GPTQ. Como máximo, ejecutas un paso de calibración.

¿Cambiarán las indicaciones o la tokenización?

No. La cuantificación es un detalle de representación interna.

¿Cómo puedo saber si la calidad ha bajado?

Usa un conjunto de evaluación pequeño y un pase humano rápido. Esté atento a la pérdida de estructura, los pasos omitidos y la desviación de los hechos.

‍

Cuando los estudiantes de IA superan el entorno limitado: cómo DSTI amplió su acceso a la GPU con Hivenet

La Escuela de Ingeniería DSTI se asoció con Hivenet para ofrecer a los estudiantes de máster un acceso más uniforme a una computación GPU europea asequible para proyectos reales de aprendizaje profundo.