Um guia prático para quantização de LLM

A maioria dos problemas de inferência são problemas de memória. A quantização reduz os pesos do modelo para que você possa ajuste o modelo e seu cache nas GPUs que você tem, aumente o volume e mantenha a latência estável. O truque é manter a qualidade dentro do alcance de suas tarefas. Além disso, o uso da quantização pode levar a uma menor pegada de carbono para treinamento e inferência devido à redução do consumo de energia.

Este artigo é um recurso prático e estruturado, diferente de um blog típico, com foco em fornecer informações sistemáticas e etapas acionáveis. Os leitores devem estar familiarizados com os conceitos básicos de inferência e quantização de modelos antes de continuar. Neste artigo, abordaremos os pré-requisitos, métodos de quantização e avaliação para garantir uma compreensão abrangente do tópico.

Experimente o Compute hoje

Ligado Computar, você pode lançar um vLLM servidor e escolha variantes de modelo menores e quantizadas do catálogo. Defina limites de contexto e saída e, em seguida, meça TTFT e tokens/segundo com suas próprias instruções.

O que a quantização faz

A quantização armazena pesos com menos bits do que FP16/BF16. O número de bits usados afeta diretamente o consumo de memória e a precisão do modelo. O modelo é executado com kernels leves de desquantização para que a matemática permaneça estável o suficiente para a maioria das tarefas. No entanto, a quantização uniforme padrão pode impactar severamente a representação de pesos e ativações discrepantes, degradando a precisão. Escolher a estratégia ideal de largura de bits e calibração durante a quantização exige testes extensivos para equilibrar a economia e a precisão da memória.

int8: bom padrão para produção — alto ganho de memória com perda mínima de qualidade. O intervalo de valores que podem ser armazenados é determinado pela largura de bits e os pontos zero são representados como valores inteiros específicos dentro desse intervalo. O valor máximo no intervalo de dados é usado para escalar durante a quantização.
int4: maior ganho de memória, geralmente decodificação mais rápida em alta simultaneidade, maior risco de quedas de qualidade em raciocínios complexos ou saídas longas. O intervalo de valores e a forma como os pontos zero são representados são definidos de forma semelhante pela largura de bits, com o valor máximo usado novamente para escalar.
Nota: A economia real de memória e o número de parâmetros afetados podem variar dependendo da implementação e da arquitetura do modelo.

A quantização não altera a tokenização ou sua API. Ele altera o uso e a taxa de transferência da memória. A quantização é um método para reduzir o tamanho do modelo e melhorar a eficiência ao mapear valores de ponto flutuante para um conjunto menor de valores discretos.

Métodos comuns na natureza

AWQ (quantização de peso com reconhecimento de ativação). Esse método é aplicado em várias configurações de produção e ajusta a quantização usando ativações reais para que canais importantes mantenham a precisão. Normalmente, são alcançados melhores resultados de memória e fortes resultados int4 para muitos modelos de bate-papo.
GPTQ. Quantização pós-treinamento por canal com dados de calibração. Esse método aplicado está amplamente disponível; os resultados alcançados variam de acordo com o tamanho e as configurações do grupo.
LLM.int8//bits e bytes. Caminho int8 popular que preserva pesos discrepantes. Confiável quando você deseja uma redução rápida e segura.
Kernels no estilo Marlin. Kernels de GPU otimizados que aceleram as matmuls de baixo bit nas placas compatíveis.
Treinamento sensível à quantização (QAT). Técnicas avançadas como o QAT visam minimizar a perda de precisão, mas exigem mais recursos computacionais.

Escolha o que sua pilha de serviço suporta e o que sua família de modelos oferece pré-fabricada. Evite cadeias de ferramentas únicas, a menos que você planeje mantê-las.

Matemática de memória que você pode fazer em um guardanapo

O tamanho do peso da linha de base para FP16 é de aproximadamente 2 bytes por parâmetro.

Modelo 7B, FP16: ~14 GB para pesos
7B, int8: ~ 7—8 GB
7B, int4: ~ 3,5—4 GB

LLMs menores geralmente são mais sensíveis à perda de informações durante a quantização em comparação com modelos maiores.

Adicionar Cache KV espaço livre: aproximadamente hidden_size × num_layers × 2 (K/V) × seq_len × lote em bytes em tempo de execução (a precisão depende do motor). Se a pressão do cache aumentar, o TTFT sobe e os tokens/segundo diminuem.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Velocidade e taxa de transferência

O foco desta seção está na taxa de transferência e na distribuição de lotes. A quantização pode aumentar a taxa de transferência porque você pode agrupar mais solicitações antes que a memória acabe. Além disso, a quantização pode melhorar a taxa de transferência e a eficiência no atendimento de modelos, reduzindo o uso de memória e os requisitos computacionais. O pré-preenchimento ainda pode ser limitado ao cálculo, portanto, os ganhos variam de acordo com o modelo, o tamanho do prompt e os kernels. Meça de acordo com suas instruções. Não prometa velocidade sem dados. Muitas vezes, é necessário avaliar as vantagens e desvantagens ao decidir usar modelos quantizados com base em seus casos de uso.

Quando isso ajuda

A quantização pode ser adequada para usuários que enfrentam restrições específicas de memória ou custo, como quando:
Você atinge rotineiramente os limites de VRAM ou o despejo de cache sob carga.
Você quer lotes maiores com a mesma meta de latência.
Você deve ajustar um modelo em menos GPUs para reduzir custos.

Quando dói

Raciocínio longo e em várias etapas com metas estritas de precisão.
Tarefas de segurança ou classificação que são sensíveis a pequenas mudanças de pontuação.
Saídas muito longas em que os erros se agravam.

Exemplos de aplicativos

A quantização e o cache KV não são apenas técnicas modernas — são ferramentas fundamentais que fazem com que os modelos de linguagem funcionem de forma eficiente sem sacrificar a qualidade. Considere arquiteturas de transformadores como GPT: o cache KV permite que eles lidem com sequências de entrada mais longas enquanto usam menos energia e memória por inferência. A usabilidade do cache KV é particularmente acentuada para modelos de IA que geram textos mais longos, pois ajuda a manter a eficiência e o desempenho. Quando você está implantando em dispositivos com restrições rígidas de recursos, cada byte e milissegundo são importantes. O armazenamento em cache de valores-chave ajuda a acelerar a geração de texto em modelos de IA ao lembrar informações importantes das etapas anteriores.

A quantização reduz o consumo de memória do seu modelo ao reduzir a precisão do peso. Você obtém uma inferência mais rápida enquanto mantém a alta qualidade do texto. Métodos de pós-treinamento, como o GPTQ, permitem que você implante grandes modelos de linguagem sem retreinamento, perfeitos quando você precisa do ponto ideal entre desempenho e uso de recursos. A quantização pós-treinamento (PTQ) quantiza um modelo já treinado e é mais rápida de implementar, mas pode diminuir significativamente a precisão. Os aplicativos de PNL exigem texto coerente e contextualmente preciso, e seus modelos precisam funcionar em diferentes dispositivos e ambientes. O processo de calibração é necessário para encontrar os valores mínimo e máximo para quantização.

Criar modelos eficientes significa entender como a quantização afeta a precisão e como o cache de KV reduz os custos computacionais. Você vai querer exemplos de código e tutoriais claros que mostrem o processo de implementação. Compare os modelos quantizados int8 e int4 usando tabelas ou diagramas — isso ajuda você a ver as vantagens e desvantagens de memória, velocidade e qualidade. Escolha a abordagem que atenda às necessidades do seu aplicativo. Modelos regulares de grandes linguagens exigem recursos de hardware significativos, proporcionais ao seu tamanho.

Tornar os modelos de linguagem eficientes traz desafios reais. Você precisa manter a qualidade da saída em diversos tópicos e comprimentos de entrada. O hardware tradicional tem limites. Seus modelos implantados devem gerar resultados confiáveis quando usuários reais os acessam com informações do mundo real. Mantenha-se atualizado com trabalhos de pesquisa, artigos e guias de implementação — eles ajudarão você a tomar decisões inteligentes e a melhorar a eficiência de seus modelos.

A quantização e o cache KV proporcionam um impacto mensurável no desempenho e na eficiência do modelo de linguagem. Concentre-se nessas técnicas e você poderá implantar soluções poderosas de PNL que funcionam em muitos casos de uso. Mantenha o uso da memória, os custos de inferência e a complexidade da implantação sob controle.

Um ciclo de avaliação simples

Escolha de 30 a 100 solicitações reais que refletem seu produto. Inclua estojos rígidos.
Definir cheques: métricas automáticas (correspondência exata, BLEU/ROUGE, se relevante), além de uma rápida análise humana de fidelidade. Os métodos de avaliação são aplicados para reunir evidências do desempenho do modelo, e o feedback humano é valioso para avaliar a fidelidade e a qualidade.
Execute a linha de base do FP16 em seu hardware de destino. Registre TTFT, tokens/segundo e quaisquer pontuações críticas de tarefas.
Teste int8, depois int4 no mesmo hardware e configurações. Mantenha os limites de contexto/saída idênticos.
Compare deltas: qualidade, TTFT, tokens/segundo e espaço livre de memória da GPU. As diferenças de qualidade e desempenho são determinadas pela comparação dessas métricas.
Decida: envie int8 se a qualidade estiver dentro da tolerância; considere int4 somente se a qualidade persistir em suas tarefas.

Os resultados podem ser apresentados em tabelas ou gráficos para maior clareza.

Plano de lançamento que evita surpresas

Tráfego paralelo para um subconjunto de usuários.
Corrimãos: cap max_tokens, mantenha as penalidades de repetição e interrompa as sequências consistentes.
Reversão rápida via bandeira de recurso ou rota de gateway. Os sinalizadores de recursos podem ser ativados ou desativados para controlar a implantação e reverter rapidamente as alterações, se necessário.
Painéis para TTFT/TPS, taxas de erro e amostras de qualidade. Painéis e ferramentas de monitoramento podem ser integrados ao processo de implantação para fornecer melhor visibilidade e garantir operações tranquilas.

Solução de problemas

As saídas parecem concisas ou genéricas. Esta seção ajuda a resolver problemas comuns de quantização. Aumente um pouco os max_tokens; verifique se há tamanhos de grupo excessivamente agressivos nos modelos int4.
A latência melhorou, mas aumenta sob carga. O cache está apertado. Reduza os avisos, reduza os limites ou adicione VRAM.
A qualidade oscila em tarefas de nicho. Mantenha esse caminho no FP16 ou experimente o int8 com tratamento atípico para superar as quedas de qualidade.
OOM em bate-papos longos. Reduza o histórico, use o RAG ou mude para uma predefinição maior para superar os erros de OOM.

Últimos pensamentos

A quantização é uma das formas mais limpas de ajustar os modelos, manter as filas saudáveis e controlar os gastos. Comece com int8, meça seus dados e passe para int4 somente quando os números indicarem que é seguro.

Entender a palavra “quantização” é fundamental para tomar decisões informadas sobre otimização e implantação de modelos.

Para obter mais detalhes técnicos e explicações detalhadas, consulte as referências fornecidas por fontes confiáveis.

Experimente o Compute hoje

Lance um modelo quantizado em um vLLM ponto final em Computar, mantenha seu cliente OpenAI e compare TTFT e tokens/segundo em relação à sua linha de base antes do lançamento.

PERGUNTAS FREQUENTES

O que é quantização em LLMs?

Armazenamento e computação com menos bits para pesos de modelo (e às vezes ativações) para reduzir o uso de memória e aumentar a taxa de transferência.

4 bits são bons ou suficientes?

Frequentemente, para conversas casuais e resumos. Teste cuidadosamente o raciocínio, o uso da ferramenta e os resultados longos. Em caso de dúvida, comece com int8.

A quantização sempre acelera as coisas?

Não. Ele aumenta a capacidade primeiro reduzindo a memória. As acelerações dependem dos kernels, do formato do lote e do comprimento do prompt.

E quanto ao cache KV? Ele pode ser quantizado?

Algumas pilhas suportam cache KV de baixa precisão. Os ganhos variam e podem afetar a qualidade. O tratamento é uma opção avançada após a quantização do peso se mostrar segura.

Preciso treinar novamente o modelo?

Não para métodos de pós-treinamento, como AWQ e GPTQ. Você executa uma etapa de calibração no máximo.

As solicitações ou a tokenização mudarão?

Não. A quantização é um detalhe de representação interna.

Como posso saber se a qualidade caiu?

Use um pequeno conjunto de avaliação e um passe humano rápido. Fique atento à perda de estrutura, etapas perdidas e desvios factuais.

‍

Quando os estudantes de IA superam a sandbox: como a DSTI expandiu seu acesso à GPU com a Hivenet

A DSTI School of Engineering fez parceria com a Hivenet para oferecer aos alunos de mestrado um acesso mais consistente à computação de GPU europeia acessível para projetos reais de aprendizado profundo.