
O treinamento chama a atenção. A inferência carrega a carga. O tráfego está alto, as solicitações variam em tamanho e as pessoas esperam palavras na tela quase imediatamente. Para cumprir essa promessa, você precisa de uma configuração de serviço que trate a memória, o lote e o custo como questões de primeira classe. Sempre há um equilíbrio entre minimizar a latência e maximizar a taxa de transferência ao otimizar a inferência do LLM. A baixa latência é fundamental para que os aplicativos interativos garantam uma boa experiência do usuário.
Precisa de um endpoint dedicado que você possa ajustar? Ligado Computar, você pode lançar um vLLM servidor de inferência em predefinições RTX 4090 ou de várias GPUs. Você obtém um URL HTTPS que funciona com os SDKs do OpenAI. Escolha uma região para manter os dados próximos aos usuários.
As solicitações chegam rapidamente. Alguns avisos são curtos, outros trazem conversas longas. O modelo cria um cache de chave/valor à medida que gera tokens. Esse cache fica na memória da GPU. Se você não gerenciá-la bem, a latência aumenta e a taxa de transferência diminui. Os recursos computacionais disponíveis, como GPUs, afetam diretamente o desempenho do modelo e a capacidade do sistema de lidar com alta taxa de transferência sem encontrar gargalos de desempenho. Comprimentos maiores de sequência de entrada (ISL) afetam os requisitos de memória e podem aumentar o tempo até o primeiro token (TTFT).
Seu objetivo é simples: manter a latência baixa e, ao mesmo tempo, fornecer quantos tokens por segundo seus usuários precisarem, sem estourar o orçamento. Equilibrar a latência e a taxa de transferência é fundamental ao otimizar a inferência do LLM, pois ambas as métricas afetam significativamente o desempenho e o custo. A avaliação do desempenho do LLM envolve o monitoramento dessas métricas para garantir uma operação eficiente e econômica. Um dos maiores desafios da inferência de LLM é seu custo computacional, que pode levar a uma alta latência e despesas. A latência é crucial para a experiência do usuário em aplicativos interativos e em tempo real.
Essas são as principais métricas normalmente medidas ao avaliar o desempenho da inferência do LLM:
A latência média e a latência total são importantes para entender a experiência do usuário, pois representam o tempo médio e geral desde o início da solicitação até o recebimento do token final. As métricas baseadas em tokens ajudam a comparar a eficiência do modelo, o custo do treinamento e a velocidade de inferência em diferentes modelos e métodos de tokenização.
GPU única. Simples para modelos 7B—13B, provas de conceito e aplicativos pequenos.
Várias GPUs. Um anfitrião, vários cartões. Use o paralelismo de tensor ou pipeline para ajustar modelos maiores ou aumentar a taxa de transferência. À medida que as solicitações simultâneas aumentam, uma maior taxa de transferência pode ser alcançada até os limites do sistema de inferência.
Escala horizontal. Muitos nós atrás de um gateway. Adicione balanceamento de carga, sessões fixas para reutilização do cache e um agendador que conheça os comprimentos dos prompts e das saídas. O balanceamento e o agendamento de carga são essenciais para escalar sistemas LLM de forma eficiente.
Endpoints sem servidor. Bom para picos pontiagudos quando você pode aceitar partidas a frio e custos variáveis.
Prefere um desempenho previsível? Experimente o Compute e inicie um servidor vLLM em um único 4090 ou escale para uma predefinição de várias GPUs. Você obtém capacidade dedicada e preços claros.
VLLM. Forte concorrência de lotes contínuos e paginação inteligente em cache KV. Envia um servidor HTTP compatível com OpenAI.
Inferência de geração de texto (TGI). Escolha sólida no ecossistema Hugging Face com ferramentas maduras.
Tensort‑LLM. O caminho da NVIDIA para a velocidade máxima em hardware compatível. Melhor quando você pode investir em otimização.
Ollama. Ótimo localmente ou para configurações simples de caixa única. Menos focado em APIs de alto tráfego.
Escolha com base no perfil de tráfego, no suporte do modelo e na quantidade de ajustes que você deseja ter.
Solicitações longas e bate-papos longos aumentam o cache KV. Sem uma paginação cuidadosa, a VRAM desaparece e a latência aumenta. Comprimentos maiores de sequência de entrada (ISL) afetam os requisitos de memória e podem aumentar o tempo até o primeiro token (TTFT). A complexidade e a duração das solicitações de entrada podem afetar significativamente o uso da memória e a latência da inferência. O tamanho máximo do contexto limita o número total de tokens de entrada e saída que o modelo pode processar de uma vez, afetando diretamente a capacidade de lidar com sequências mais longas e o desempenho geral. Duas alavancas ajudam a maioria das equipes: usar um lote maior exige mais VRAM e pode aumentar o uso de memória para o cache KV.
A menor precisão economiza memória e pode melhorar a taxa de transferência. AWQ ou GPTQ int8/int4 são comuns. Espere pequenas perdas de qualidade. A quantização pode impactar a qualidade da geração, portanto, ela deve ser avaliada cuidadosamente usando benchmarks relevantes. Teste com seus dados antes de se comprometer. Pode ser necessário um ajuste fino para manter o desempenho após a quantização.
Otimizar a seleção de hardware e as estratégias de lote é essencial para maximizar a eficiência de custos na inferência de LLM, equilibrando o desempenho com os custos de recursos e infraestrutura.
Usuários da UE? Implemente a computação na França. Mercados no Oriente Médio? Escolha uma região dos Emirados Árabes Unidos. Mantenha o trânsito próximo.
Equilibrar a latência e a taxa de transferência é fundamental ao otimizar a inferência do LLM, pois ambas as métricas afetam significativamente o desempenho e a eficiência de custos.
Um modelo aproximado: estime os tokens diários gerados, divida pelos tokens esperados por segundo por GPU e converta em horas de GPU. Compare com o tráfego real e adicione espaço para picos. À medida que a simultaneidade aumenta, o total de tokens por segundo (TPS) cresce até atingir um ponto de saturação, além do qual o desempenho pode diminuir. É importante entender quantas solicitações seu sistema pode atender em um determinado período de tempo para planejar a capacidade e gerenciar os custos de forma eficaz. Observe que o desempenho no mundo real pode diferir dessas estimativas devido a variações de hardware e fatores de infraestrutura, portanto, sempre valide com dados reais de implantação.
O benchmarking de desempenho do LLM e a avaliação do desempenho do LLM usando as principais métricas são essenciais para garantir implantações confiáveis e eficientes. O rastreamento dessas métricas ajuda as equipes a entender a capacidade do sistema, identificar gargalos e otimizar o uso de recursos.
Rastreie pelo menos:
As métricas comuns de benchmarking incluem o tempo até o primeiro token (TTFT) e os tokens por segundo (TPS), que são essenciais para avaliar o desempenho do sistema. O benchmarking de LLMs é essencial para avaliar seu desempenho e eficiência em aplicativos do mundo real, ajudando as equipes a identificar áreas de melhoria e otimização. Avaliar o desempenho dos LLMs envolve o uso de várias ferramentas que definem, medem e calculam métricas de forma diferente. O benchmarking de desempenho ajuda a identificar problemas relacionados à eficiência e otimização do modelo. A combinação de testes de carga e benchmarking de desempenho fornece uma compreensão abrangente dos recursos de implantação do LLM. Analisar a curva de latência também é importante para entender a relação entre o tamanho do lote e a latência, e como diferentes configurações afetam a taxa de transferência e os tempos de resposta.
Alerta quando o TTFT aumenta ou o TPS cai sob carga constante. Isso geralmente é um sinal de pressão de memória, lotes incorretos ou gargalos de desempenho.
Encerre o TLS, gire as chaves, mantenha o escopo do acesso e evite registrar solicitações brutas, a menos que seja necessário. Se você trabalha na Europa, mantenha os dados na região e retenha e exclua os documentos.
Experimente o Compute hoje mesmo!
Os endpoints de computação usam HTTPS por padrão. Escolha um local europeu para manter os dados na região.
Adquira-o se precisar de controle total e tiver tempo para ajustar. Use um endpoint gerenciado e dedicado se quiser agilizar a valorização e prever gastos. Mantenha um caminho de saída de qualquer maneira. Os servidores Compute vLLM fornecem um endpoint dedicado com Rotas compatíveis com OpenAI. Troque a URL base em seu SDK e entre em operação.
O tempo até o primeiro token é a lacuna entre enviar uma solicitação e ver o primeiro token. O TTFT curto melhora a percepção de velocidade e confiança. As pessoas sentem esse número mais do que qualquer outro. A latência de solicitação de ponta a ponta (e2e_latency) inclui o tempo entre o envio da solicitação e o recebimento do token final, fornecendo uma medida mais ampla da experiência do usuário.
Depende do tamanho do modelo, do tamanho do contexto e do lote. Um modelo 7B bem ajustado com instruções curtas e streaming pode atender a muitos usuários em um único cartão de 24 GB. Contextos longos reduzem esse número rapidamente.
Nem sempre. Contextos longos são simples, mas caros. O RAG mantém os prompts restritos e permite escalar a recuperação de forma independente. Muitas equipes usam um híbrido.
Inicie uma única GPU, se puder. Mude para várias GPUs quando a memória ou a taxa de transferência exigirem. Teste os modos paralelos e observe a integridade do cache.
Sim Coloque o endpoint em uma região da UE, use HTTPS, controle o acesso e defina políticas de retenção claras.
A inferência LLM é o processo em que um grande modelo de linguagem gera uma resposta com base em um prompt de entrada processando tokens por meio de sua rede neural. Durante a inferência, o LLM processa o prompt ativando sua vasta rede de parâmetros para prever a sequência mais provável de tokens. Os LLMs podem processar grandes volumes de texto e fornecer resumos concisos de artigos ou documentos.
A inferência LLM normalmente envolve dois estágios: a fase de pré-preenchimento, na qual os tokens de entrada são processados, e a fase de decodificação, em que o modelo gera os tokens de saída um por vez.
O treinamento envolve o ajuste dos parâmetros do modelo usando grandes conjuntos de dados, enquanto a inferência usa o modelo treinado para gerar saídas sem alterar seus parâmetros. Os LLMs podem gerar artigos, histórias, textos de marketing e até mesmo código.
Esses são sistemas de software projetados para executar LLMs com eficiência para gerar saídas, otimizando a latência, a taxa de transferência e o uso de recursos.
O vLLM é um mecanismo de inferência focado em forte concorrência com lotes contínuos e gerenciamento eficiente de cache de valores-chave para otimizar o serviço LLM.
O LLM se refere ao próprio modelo de linguagem grande, enquanto o vLLM é um mecanismo ou estrutura para atender LLMs de forma eficiente na produção.
O vLLM é otimizado para alta simultaneidade e taxa de transferência, o que geralmente o torna mais rápido para atender a várias solicitações em comparação com o Ollama, que é mais adequado para configurações mais simples.
Porque ele usa lotes contínuos e paginação inteligente em cache de valores-chave para maximizar a utilização da GPU e reduzir a latência.
O serviço LLM se refere à implantação e execução de grandes modelos de linguagem para responder às solicitações do usuário em tempo real ou em lote.
É uma plataforma ou software que hospeda e gerencia LLMs, lidando com solicitações de inferência com eficiência.
Um servidor configurado para executar cargas de trabalho de inferência LLM, fornecendo acesso às previsões do modelo por meio de APIs ou outras interfaces.
Refere-se ao uso de LLMs para avaliar ou pontuar resultados, como avaliar a qualidade do modelo ou classificar as respostas.
Tokens por segundo (TPS) medem quantos tokens um LLM gera ou processa em um segundo, indicando a taxa de transferência.
O TPS do ChatGPT varia de acordo com a implantação e o hardware, mas normalmente varia de algumas dezenas a mais de cem tokens por segundo.
Aproximadamente 750 palavras em inglês, pois um símbolo corresponde aproximadamente a 0,75 palavras.
Um token é a menor unidade de texto que um modelo de linguagem processa, que pode ser uma palavra, uma subpalavra ou um caractere.
O tempo até o primeiro token (TTFT) é a latência do envio de uma solicitação até o recebimento do primeiro token gerado.
Registrando a diferença de tempo entre o envio de uma solicitação e o recebimento do primeiro token de saída do modelo.
O tempo por token de saída (TPOT) mede o tempo médio necessário para gerar cada token de saída após o primeiro.
É a medição de TTFT da Nvidia, com foco nas métricas de latência durante a inferência LLM no hardware da Nvidia.
Um cache de valores-chave armazena resultados de atenção intermediários durante a decodificação para evitar a recalculação de tokens anteriores.
É o armazenamento de dados de cache de valores-chave na memória da GPU para acelerar a geração de tokens LLM.
O cache KV contém chaves e valores de tokens anteriores para computar com eficiência a atenção para novos tokens.
Uma estrutura de dados que armazena pares de chaves e valores, usada em LLMs para armazenar cálculos intermediários em cache.
Uma técnica em que as solicitações recebidas são continuamente agrupadas para maximizar a utilização e a taxa de transferência da GPU.
Um lote de solicitações de inferência formado dinamicamente à medida que chegam, processadas sem esperar por intervalos fixos.
O lote contínuo forma lotes de forma dinâmica e contínua, enquanto o lote em andamento se refere às solicitações que estão sendo processadas no momento.
No setor bancário, o agrupamento em lotes se refere ao agrupamento de transações para processá-las coletivamente, sem relação com o atendimento do LLM.
A taxa de transferência é quantos tokens ou solicitações um LLM pode processar por segundo; latência é o tempo gasto para gerar respostas.
Otimizando as estratégias de agrupamento em lote, usando hardware eficiente, reduzindo o comprimento da sequência de entrada e aproveitando o armazenamento em cache.
A latência de 40 ms é melhor, pois significa tempos de resposta mais rápidos.
Alto custo computacional e latência, especialmente para modelos grandes com contextos longos.
É o número de tokens ou solicitações que um LLM pode processar por segundo sob determinadas condições.
Medindo os tokens gerados ao longo do tempo sob cargas controladas e simultaneidade.
A inferência LLM é principalmente intensiva em GPU devido a grandes cálculos de matrizes.
Reunindo solicitações em lote, usando mecanismos de inferência otimizados e implantando em GPUs poderosas.
GPUs com alta memória e largura de banda de memória, como Nvidia RTX 4090 ou A100, são comumente usadas.
Sim, a inferência e o treinamento do LLM dependem fortemente de GPUs para computação paralela.
Para modelos grandes, uma GPU é recomendada; modelos pequenos podem ser executados em CPUs, mas com desempenho reduzido.
Sim, o RTX 4090 oferece alta capacidade de computação e VRAM, adequados para muitas tarefas de inferência de LLM.