Inferência de LLM na produção: um guia prático

O treinamento chama a atenção. A inferência carrega a carga. O tráfego está alto, as solicitações variam em tamanho e as pessoas esperam palavras na tela quase imediatamente. Para cumprir essa promessa, você precisa de uma configuração de serviço que trate a memória, o lote e o custo como questões de primeira classe. Sempre há um equilíbrio entre minimizar a latência e maximizar a taxa de transferência ao otimizar a inferência do LLM. A baixa latência é fundamental para que os aplicativos interativos garantam uma boa experiência do usuário.

‍
Precisa de um endpoint dedicado que você possa ajustar? Ligado Computar, você pode lançar um vLLM servidor de inferência em predefinições RTX 4090 ou de várias GPUs. Você obtém um URL HTTPS que funciona com os SDKs do OpenAI. Escolha uma região para manter os dados próximos aos usuários.

Por que a inferência é difícil

As solicitações chegam rapidamente. Alguns avisos são curtos, outros trazem conversas longas. O modelo cria um cache de chave/valor à medida que gera tokens. Esse cache fica na memória da GPU. Se você não gerenciá-la bem, a latência aumenta e a taxa de transferência diminui. Os recursos computacionais disponíveis, como GPUs, afetam diretamente o desempenho do modelo e a capacidade do sistema de lidar com alta taxa de transferência sem encontrar gargalos de desempenho. Comprimentos maiores de sequência de entrada (ISL) afetam os requisitos de memória e podem aumentar o tempo até o primeiro token (TTFT).

Seu objetivo é simples: manter a latência baixa e, ao mesmo tempo, fornecer quantos tokens por segundo seus usuários precisarem, sem estourar o orçamento. Equilibrar a latência e a taxa de transferência é fundamental ao otimizar a inferência do LLM, pois ambas as métricas afetam significativamente o desempenho e o custo. A avaliação do desempenho do LLM envolve o monitoramento dessas métricas para garantir uma operação eficiente e econômica. Um dos maiores desafios da inferência de LLM é seu custo computacional, que pode levar a uma alta latência e despesas. A latência é crucial para a experiência do usuário em aplicativos interativos e em tempo real.

Os três números para assistir

Essas são as principais métricas normalmente medidas ao avaliar o desempenho da inferência do LLM:

Tempo até o primeiro token (TTFT). A rapidez com que a resposta começa. Os usuários sentem isso, pois marca o atraso inicial antes do início da saída do modelo. O TTFT é influenciado pelo enfileiramento de solicitações, pelo pré-preenchimento e pela latência da rede.
Tokens por segundo (TPS). A rapidez com que o texto flui quando é iniciado. Isso define a sensação de bate-papo e a capacidade da API.
Rendimento. A produtividade do sistema é uma métrica crítica para avaliar a capacidade máxima de processamento sob carga. Ele mede quantas solicitações simultâneas permanecem dentro da sua meta de latência, refletindo a eficiência do sistema de inferência.
Latência Intertoken (ITL). O tempo médio entre a geração de tokens consecutivos em uma sequência, o que afeta a suavidade da geração de texto. O tempo para gerar cada token de conclusão afeta diretamente a velocidade geral da inferência e a capacidade de resposta da saída do modelo. A latência aceitável varia de acordo com o caso de uso; por exemplo, os chatbots exigem menor latência do que os processos off-line.

A latência média e a latência total são importantes para entender a experiência do usuário, pois representam o tempo médio e geral desde o início da solicitação até o recebimento do token final. As métricas baseadas em tokens ajudam a comparar a eficiência do modelo, o custo do treinamento e a velocidade de inferência em diferentes modelos e métodos de tokenização.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Arquiteturas de serviço

GPU única. Simples para modelos 7B—13B, provas de conceito e aplicativos pequenos.

Várias GPUs. Um anfitrião, vários cartões. Use o paralelismo de tensor ou pipeline para ajustar modelos maiores ou aumentar a taxa de transferência. À medida que as solicitações simultâneas aumentam, uma maior taxa de transferência pode ser alcançada até os limites do sistema de inferência.

Escala horizontal. Muitos nós atrás de um gateway. Adicione balanceamento de carga, sessões fixas para reutilização do cache e um agendador que conheça os comprimentos dos prompts e das saídas. O balanceamento e o agendamento de carga são essenciais para escalar sistemas LLM de forma eficiente.

Endpoints sem servidor. Bom para picos pontiagudos quando você pode aceitar partidas a frio e custos variáveis.

Prefere um desempenho previsível? Experimente o Compute e inicie um servidor vLLM em um único 4090 ou escale para uma predefinição de várias GPUs. Você obtém capacidade dedicada e preços claros.

Visão geral dos motores

VLLM. Forte concorrência de lotes contínuos e paginação inteligente em cache KV. Envia um servidor HTTP compatível com OpenAI.

Inferência de geração de texto (TGI). Escolha sólida no ecossistema Hugging Face com ferramentas maduras.

Tensort‑LLM. O caminho da NVIDIA para a velocidade máxima em hardware compatível. Melhor quando você pode investir em otimização.

Ollama. Ótimo localmente ou para configurações simples de caixa única. Menos focado em APIs de alto tráfego.

Escolha com base no perfil de tráfego, no suporte do modelo e na quantidade de ajustes que você deseja ter.

Contexto e memória

Solicitações longas e bate-papos longos aumentam o cache KV. Sem uma paginação cuidadosa, a VRAM desaparece e a latência aumenta. Comprimentos maiores de sequência de entrada (ISL) afetam os requisitos de memória e podem aumentar o tempo até o primeiro token (TTFT). A complexidade e a duração das solicitações de entrada podem afetar significativamente o uso da memória e a latência da inferência. O tamanho máximo do contexto limita o número total de tokens de entrada e saída que o modelo pode processar de uma vez, afetando diretamente a capacidade de lidar com sequências mais longas e o desempenho geral. Duas alavancas ajudam a maioria das equipes: usar um lote maior exige mais VRAM e pode aumentar o uso de memória para o cache KV.

Geração aumentada por recuperação (RAG). Mantenha as instruções curtas. Busque o contexto certo no momento da solicitação. Controlar o comprimento da saída é importante para gerenciar a memória e os custos.
Armazenamento em cache eficiente. Mecanismos como o vLLM dividem o cache em pequenos blocos, reutilizam o que podem e eliminam o necessário.
Quantização. Essa técnica reduz os requisitos de hardware para inferência LLM ao diminuir a precisão dos pesos e ativações do modelo. É importante usar dados de teste representativos para avaliar o impacto da quantização no desempenho.

Quantização, brevemente

A menor precisão economiza memória e pode melhorar a taxa de transferência. AWQ ou GPTQ int8/int4 são comuns. Espere pequenas perdas de qualidade. A quantização pode impactar a qualidade da geração, portanto, ela deve ser avaliada cuidadosamente usando benchmarks relevantes. Teste com seus dados antes de se comprometer. Pode ser necessário um ajuste fino para manter o desempenho após a quantização.

Opções de hardware

Memória em primeiro lugar. A VRAM define o tamanho do modelo e a profundidade do lote. Vinte e quatro gigabytes são adequados para muitos modelos 7B com espaço para lote. Modelos maiores ou contextos longos geralmente precisam de 48 a 80 GB ou várias GPUs, o que aumenta os custos de infraestrutura à medida que mais hardware é necessário.
Calcule a seguir. Núcleos extras ajudam durante o pré-preenchimento. O lote bem e a decodificação permanecem eficientes.
Posicionamento na rede. Coloque o endpoint perto dos usuários. A latência da rede aumenta rapidamente. O FlashAttention reordena os cálculos do mecanismo de atenção para reduzir os requisitos de largura de banda da memória.

Otimizar a seleção de hardware e as estratégias de lote é essencial para maximizar a eficiência de custos na inferência de LLM, equilibrando o desempenho com os custos de recursos e infraestrutura.

Usuários da UE? Implemente a computação na França. Mercados no Oriente Médio? Escolha uma região dos Emirados Árabes Unidos. Mantenha o trânsito próximo.

Custos que importam

Horas de GPU. Seu item de linha principal. Hardware do tamanho certo para modelar e trafegar.
Tempo ocioso. Dimensione automaticamente ou desligue quando estiver silencioso, ou pague pela disponibilidade instantânea.
Desperdício simbólico. Avisos longos e max_tokens altos consomem dinheiro. Transmita respostas e limite as saídas.
Tamanho do lote. Tamanhos de lote maiores podem levar a uma utilização mais eficiente da GPU, mas podem aumentar a latência de solicitações individuais. Lotes maiores podem melhorar a produtividade, mas geralmente levam ao aumento da latência. O modo de streaming permite que os LLMs forneçam saídas incrementais, aprimorando a experiência do usuário. Maximizar a produtividade com tamanhos de lote ideais pode melhorar significativamente a eficiência de custos ao fazer melhor uso dos recursos de hardware disponíveis.

Equilibrar a latência e a taxa de transferência é fundamental ao otimizar a inferência do LLM, pois ambas as métricas afetam significativamente o desempenho e a eficiência de custos.

Um modelo aproximado: estime os tokens diários gerados, divida pelos tokens esperados por segundo por GPU e converta em horas de GPU. Compare com o tráfego real e adicione espaço para picos. À medida que a simultaneidade aumenta, o total de tokens por segundo (TPS) cresce até atingir um ponto de saturação, além do qual o desempenho pode diminuir. É importante entender quantas solicitações seu sistema pode atender em um determinado período de tempo para planejar a capacidade e gerenciar os custos de forma eficaz. Observe que o desempenho no mundo real pode diferir dessas estimativas devido a variações de hardware e fatores de infraestrutura, portanto, sempre valide com dados reais de implantação.

Confiabilidade e observabilidade

O benchmarking de desempenho do LLM e a avaliação do desempenho do LLM usando as principais métricas são essenciais para garantir implantações confiáveis e eficientes. O rastreamento dessas métricas ajuda as equipes a entender a capacidade do sistema, identificar gargalos e otimizar o uso de recursos.

Rastreie pelo menos:

Taxa de solicitação, comprimento da fila, TTFT, TPS
Uso da memória da GPU e taxa de acerto do cache
Uso de recursos de inferência de modelos (utilização da GPU e requisitos de memória durante a inferência)
Tipos de erro: OOM, tempos limite, 5xx
O monitoramento da utilização da largura de banda do modelo (MBU) pode ajudar a comparar a eficiência em diferentes sistemas de inferência.

As métricas comuns de benchmarking incluem o tempo até o primeiro token (TTFT) e os tokens por segundo (TPS), que são essenciais para avaliar o desempenho do sistema. O benchmarking de LLMs é essencial para avaliar seu desempenho e eficiência em aplicativos do mundo real, ajudando as equipes a identificar áreas de melhoria e otimização. Avaliar o desempenho dos LLMs envolve o uso de várias ferramentas que definem, medem e calculam métricas de forma diferente. O benchmarking de desempenho ajuda a identificar problemas relacionados à eficiência e otimização do modelo. A combinação de testes de carga e benchmarking de desempenho fornece uma compreensão abrangente dos recursos de implantação do LLM. Analisar a curva de latência também é importante para entender a relação entre o tamanho do lote e a latência, e como diferentes configurações afetam a taxa de transferência e os tempos de resposta.

Alerta quando o TTFT aumenta ou o TPS cai sob carga constante. Isso geralmente é um sinal de pressão de memória, lotes incorretos ou gargalos de desempenho.

Segurança e residência de dados

Encerre o TLS, gire as chaves, mantenha o escopo do acesso e evite registrar solicitações brutas, a menos que seja necessário. Se você trabalha na Europa, mantenha os dados na região e retenha e exclua os documentos.

Experimente o Compute hoje mesmo!
Os endpoints de computação usam HTTPS por padrão. Escolha um local europeu para manter os dados na região.

Construa ou compre

Adquira-o se precisar de controle total e tiver tempo para ajustar. Use um endpoint gerenciado e dedicado se quiser agilizar a valorização e prever gastos. Mantenha um caminho de saída de qualquer maneira. Os servidores Compute vLLM fornecem um endpoint dedicado com Rotas compatíveis com OpenAI. Troque a URL base em seu SDK e entre em operação.

Leitura adicional

PERGUNTAS FREQUENTES

O que é TTFT e por que isso importa?

O tempo até o primeiro token é a lacuna entre enviar uma solicitação e ver o primeiro token. O TTFT curto melhora a percepção de velocidade e confiança. As pessoas sentem esse número mais do que qualquer outro. A latência de solicitação de ponta a ponta (e2e_latency) inclui o tempo entre o envio da solicitação e o recebimento do token final, fornecendo uma medida mais ampla da experiência do usuário.

Quantos usuários simultâneos uma GPU pode atender?

Depende do tamanho do modelo, do tamanho do contexto e do lote. Um modelo 7B bem ajustado com instruções curtas e streaming pode atender a muitos usuários em um único cartão de 24 GB. Contextos longos reduzem esse número rapidamente.

Um contexto longo supera o RAG?

Nem sempre. Contextos longos são simples, mas caros. O RAG mantém os prompts restritos e permite escalar a recuperação de forma independente. Muitas equipes usam um híbrido.

Preciso de várias GPUs imediatamente?

Inicie uma única GPU, se puder. Mude para várias GPUs quando a memória ou a taxa de transferência exigirem. Teste os modos paralelos e observe a integridade do cache.

Posso manter os dados na UE?

Sim Coloque o endpoint em uma região da UE, use HTTPS, controle o acesso e defina políticas de retenção claras.

O que é uma inferência de LLM?

A inferência LLM é o processo em que um grande modelo de linguagem gera uma resposta com base em um prompt de entrada processando tokens por meio de sua rede neural. Durante a inferência, o LLM processa o prompt ativando sua vasta rede de parâmetros para prever a sequência mais provável de tokens. Os LLMs podem processar grandes volumes de texto e fornecer resumos concisos de artigos ou documentos.

Quais são os estágios da inferência do LLM?

A inferência LLM normalmente envolve dois estágios: a fase de pré-preenchimento, na qual os tokens de entrada são processados, e a fase de decodificação, em que o modelo gera os tokens de saída um por vez.

Qual é a diferença entre inferência e treinamento LLM?

O treinamento envolve o ajuste dos parâmetros do modelo usando grandes conjuntos de dados, enquanto a inferência usa o modelo treinado para gerar saídas sem alterar seus parâmetros. Os LLMs podem gerar artigos, histórias, textos de marketing e até mesmo código.

O que são mecanismos de inferência LLM?

Esses são sistemas de software projetados para executar LLMs com eficiência para gerar saídas, otimizando a latência, a taxa de transferência e o uso de recursos.

Para que serve o vLLM?

O vLLM é um mecanismo de inferência focado em forte concorrência com lotes contínuos e gerenciamento eficiente de cache de valores-chave para otimizar o serviço LLM.

Qual é a diferença entre o vLLM e o LLM?

O LLM se refere ao próprio modelo de linguagem grande, enquanto o vLLM é um mecanismo ou estrutura para atender LLMs de forma eficiente na produção.

O vLLM é mais rápido que o Ollama?

O vLLM é otimizado para alta simultaneidade e taxa de transferência, o que geralmente o torna mais rápido para atender a várias solicitações em comparação com o Ollama, que é mais adequado para configurações mais simples.

Por que o vLLM é tão rápido?

Porque ele usa lotes contínuos e paginação inteligente em cache de valores-chave para maximizar a utilização da GPU e reduzir a latência.

O que significa servir LLM?

O serviço LLM se refere à implantação e execução de grandes modelos de linguagem para responder às solicitações do usuário em tempo real ou em lote.

O que é um mecanismo de serviço LLM?

É uma plataforma ou software que hospeda e gerencia LLMs, lidando com solicitações de inferência com eficiência.

O que é um servidor LLM?

Um servidor configurado para executar cargas de trabalho de inferência LLM, fornecendo acesso às previsões do modelo por meio de APIs ou outras interfaces.

O que significa LLM como juiz?

Refere-se ao uso de LLMs para avaliar ou pontuar resultados, como avaliar a qualidade do modelo ou classificar as respostas.

O que são tokens por segundo?

Tokens por segundo (TPS) medem quantos tokens um LLM gera ou processa em um segundo, indicando a taxa de transferência.

Quantos tokens por segundo é o ChatGPT?

O TPS do ChatGPT varia de acordo com a implantação e o hardware, mas normalmente varia de algumas dezenas a mais de cem tokens por segundo.

Quantas palavras são 1.000 tokens?

Aproximadamente 750 palavras em inglês, pois um símbolo corresponde aproximadamente a 0,75 palavras.

O que significa um token na IA?

Um token é a menor unidade de texto que um modelo de linguagem processa, que pode ser uma palavra, uma subpalavra ou um caractere.

O que é TTFT?

O tempo até o primeiro token (TTFT) é a latência do envio de uma solicitação até o recebimento do primeiro token gerado.

Como medir o TTFT?

Registrando a diferença de tempo entre o envio de uma solicitação e o recebimento do primeiro token de saída do modelo.

Qual é a métrica TPOT no LLM?

O tempo por token de saída (TPOT) mede o tempo médio necessário para gerar cada token de saída após o primeiro.

Qual é a hora de usar o primeiro token da Nvidia?

É a medição de TTFT da Nvidia, com foco nas métricas de latência durante a inferência LLM no hardware da Nvidia.

O que é um cache KV?

Um cache de valores-chave armazena resultados de atenção intermediários durante a decodificação para evitar a recalculação de tokens anteriores.

O que é cache GPU KV?

É o armazenamento de dados de cache de valores-chave na memória da GPU para acelerar a geração de tokens LLM.

O que é o cache KV no LLM?

O cache KV contém chaves e valores de tokens anteriores para computar com eficiência a atenção para novos tokens.

O que é cache de armazenamento de valores-chave?

Uma estrutura de dados que armazena pares de chaves e valores, usada em LLMs para armazenar cálculos intermediários em cache.

O que é dosagem contínua?

Uma técnica em que as solicitações recebidas são continuamente agrupadas para maximizar a utilização e a taxa de transferência da GPU.

O que é um lote contínuo?

Um lote de solicitações de inferência formado dinamicamente à medida que chegam, processadas sem esperar por intervalos fixos.

Qual é a diferença entre dosagem contínua e dosagem em voo?

O lote contínuo forma lotes de forma dinâmica e contínua, enquanto o lote em andamento se refere às solicitações que estão sendo processadas no momento.

O que significa dosagem no setor bancário?

No setor bancário, o agrupamento em lotes se refere ao agrupamento de transações para processá-las coletivamente, sem relação com o atendimento do LLM.

O que é taxa de transferência e latência do LLM?

A taxa de transferência é quantos tokens ou solicitações um LLM pode processar por segundo; latência é o tempo gasto para gerar respostas.

Como reduzir a latência em LLMs?

Otimizando as estratégias de agrupamento em lote, usando hardware eficiente, reduzindo o comprimento da sequência de entrada e aproveitando o armazenamento em cache.

O que é melhor, latência de 50 ms ou 40 ms?

A latência de 40 ms é melhor, pois significa tempos de resposta mais rápidos.

Qual é o maior problema com o LLM?

Alto custo computacional e latência, especialmente para modelos grandes com contextos longos.

Qual é a taxa de transferência de um LLM?

É o número de tokens ou solicitações que um LLM pode processar por segundo sob determinadas condições.

Como testar a taxa de transferência do LLM?

Medindo os tokens gerados ao longo do tempo sob cargas controladas e simultaneidade.

O LLM consome muita CPU ou GPU?

A inferência LLM é principalmente intensiva em GPU devido a grandes cálculos de matrizes.

Como aumentar a taxa de transferência do LLM?

Reunindo solicitações em lote, usando mecanismos de inferência otimizados e implantando em GPUs poderosas.

Qual GPU usar para o LLM?

GPUs com alta memória e largura de banda de memória, como Nvidia RTX 4090 ou A100, são comumente usadas.

Alguma coisa do LLM usa GPU?

Sim, a inferência e o treinamento do LLM dependem fortemente de GPUs para computação paralela.

Precisa de uma GPU para executar o LLM localmente?

Para modelos grandes, uma GPU é recomendada; modelos pequenos podem ser executados em CPUs, mas com desempenho reduzido.

O RTX 4090 é bom para o LLM?

Sim, o RTX 4090 oferece alta capacidade de computação e VRAM, adequados para muitas tarefas de inferência de LLM.

‍

Quando os estudantes de IA superam a sandbox: como a DSTI expandiu seu acesso à GPU com a Hivenet

A DSTI School of Engineering fez parceria com a Hivenet para oferecer aos alunos de mestrado um acesso mais consistente à computação de GPU europeia acessível para projetos reais de aprendizado profundo.