Métricas que importam para a inferência do LLM

Os usuários sentem demora antes de ver as palavras. A baixa latência é crucial para uma boa experiência do usuário e para otimizar o desempenho de um modelo, pois minimizar os tempos de resposta afeta diretamente a percepção dos usuários sistemas generativos de IA. Os sistemas falham quando as filas se estendem e a memória se esgota. Um pequeno conjunto de métricas pode avisá-lo antecipadamente e indicar a solução certa. O rastreamento dessas métricas é crucial para garantir a confiabilidade do sistema e manter o desempenho do modelo. Mantenha a lista curta, conecte-a bem e torne os alertas enfadonhos.

Ligado Computar, uma vLLM ponto final fornece um URL HTTPS com rotas no estilo OpenAI e capacidade previsível. Coloque-o perto dos usuários e, em seguida, assista a TTFT, TPS e cache headroom.

Métricas principais

Essas são as principais métricas de desempenho para inferência de LLM. Vários fatores, como complexidade do prompt de entrada, uso de recursos e configuração do sistema, influenciam essas métricas. Ferramentas de monitoramento e métodos diferentes são usados para rastreá-los e analisá-los.

Tempo até o primeiro token (TTFT). Lacuna entre o envio da solicitação e o primeiro token. O número mais importante para a percepção dos tempos de resposta e da experiência do usuário. O mecanismo de atenção e o tempo de pré-preenchimento contribuem significativamente para o atraso antes do primeiro token, pois o modelo processa os tokens de entrada e constrói seu cache de valores-chave antes de gerar respostas. Rastreie p50 e p95. O token final marca o fim de uma resposta.

Tokens por segundo (TPS). Taxa de transferência após o início dos tokens. Quanto maior, melhor para UX e capacidade. O TPS é calculado com base em quantas solicitações são processadas e no número de tokens de saída gerados por segundo para todas as solicitações, geralmente medidos junto com as solicitações por segundo. A latência entre tokens é o tempo médio entre tokens consecutivos, e o TPS total é uma métrica fundamental para a taxa de transferência do sistema. O cálculo eficiente da atenção pode ajudar a reduzir a latência entre tokens. Acompanhe p50 e p95.

Comprimento da fila. Solicitações aguardando um slot de decodificação. Aumentar o comprimento com tráfego estável é igual a problemas.

Espaço livre de memória da GPU. VRAM grátis durante os picos. A baixa altura livre prevê falhas, partidas lentas e despejos. O uso de recursos e as implicações de custo devem ser considerados ao monitorar a memória da GPU.

Taxa de acerto do cache. Integridade do cache KV e de qualquer cache de prompt. Taxas de acerto mais baixas geralmente explicam o aumento do TTFT.

Tempo de pré-preenchimento versus decodificação. O tempo de pré-preenchimento é afetado pelo prompt de entrada e pelo número de tokens de entrada, pois esses fatores determinam quanto tempo o modelo passa na fase de pré-preenchimento antes da decodificação.

Taxa de erro por tipo. A complexidade e outros fatores podem influenciar as taxas de erro, portanto, o rastreamento por tipo ajuda a identificar as causas principais.

Nota: Essas métricas podem variar dependendo da configuração do sistema, da complexidade da carga de trabalho e do provedor de serviços.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Métricas de suporte

Taxa de solicitação (RPS). Combina com o comprimento da fila para explicar a pressão. A taxa de solicitação normalmente é calculada como solicitações por segundo, fornecendo uma medida quantitativa da taxa de transferência do sistema.

Tempo de pré-preenchimento versus decodificação. Dividi-las ajuda a isolar solicitações longas da geração lenta. A solicitação de entrada e o número de tokens de entrada são fatores-chave que afetam o tempo de pré-preenchimento, pois solicitações mais complexas ou longas podem aumentar a duração do processamento.

Taxa de erro por tipo. OOM, tempos limite, 4xx/5xx. Agrupe por rota e modelo. A complexidade e outros fatores podem influenciar as taxas de erro, tornando importante analisar os tipos de erro no contexto.

Latência de rede. RTT do endpoint Client ↔ por região. Os picos aqui podem imitar a lentidão do servidor.

Térmicas e relógios. A limitação aparece como TPS plano e TTFT crescente. Monitorar o uso e o custo dos recursos é importante ao avaliar o espaço livre de memória da GPU ou as taxas de erro, pois elas podem afetar o desempenho e o orçamento.

As métricas de suporte são monitoradas usando ferramentas de monitoramento para garantir uma observabilidade abrangente e a detecção oportuna de problemas.

Instrumentação que compensa

A instrumentação eficaz para a observabilidade do LLM depende de ferramentas de monitoramento e vários métodos para garantir rastreamento e análise abrangentes.

Temporizadores de clientes. Carimbe request_start, first_token e last_token. Acompanhar o tempo das respostas é uma parte fundamental do processo de avaliação do desempenho do modelo.
Expansões do servidor. Capture o tempo de enfileiramento, preencha previamente, decodifique e transmita a descarga. Métodos diferentes podem ser usados para capturar dados relevantes em cada estágio.
IDs estáveis. Envie um request_id do cliente para o servidor e para os registros.
Contadores de tokens. Registre tokens de solicitação e tokens de saída por solicitação. Monitorar o uso de recursos é importante para entender a eficiência do sistema. Ignore o texto bruto, a menos que você realmente precise dele.
Amostragem. Mantenha todos os detalhes para uma parte do tráfego e aumentos para o resto. Selecione o método apropriado de amostragem para equilibrar detalhes e escalabilidade.

Eventos mínimos para registrar por solicitação

carimbo de data/hora, rota, modelo
request_id, id de usuário/sessão (com hash)
prompt_tokens, output_tokens
ttft_ms, tps_tokens_por_seg
comprimento da fila no início
gpu_mem_free_mb, cache_hit_rate
status (ok/timeout/oom/error_code)
uso de recursos (por exemplo, utilização de CPU/GPU, uso de memória)
detalhes da resposta (por exemplo, duração da resposta, status da resposta)

Painéis que respondem a perguntas reais

Os painéis são criados usando ferramentas de monitoramento para visualizar as principais métricas de desempenho para grandes modelos de linguagem (LLMs).

“Os usuários estão se sentindo lentos no momento?”
TTFT p50/p95 ao longo do tempo com sobreposição de tráfego. Perfure por região e modelo. Os tempos de resposta e as respostas são indicadores-chave da experiência do usuário.

“Podemos aguentar mais carga?”
TPS p50/p95, comprimento da fila e espaço livre de memória da GPU. TPS plano + fila crescente = ainda não.

“Por que a latência aumentou?”
Divida o pré-preenchimento versus a decodificação, adicione RTT de rede. Pré-preenchimento longo → avisos muito grandes. Decodificação longa → tampas ou formato de lote.

“Estamos desperdiçando fichas?”
Distribuição de tokens de saída versus seus limites. Cauda grande = configurações soltas.

Observação: as métricas do painel devem ser interpretadas no contexto, pois variações nas condições de medição ou nas configurações do modelo podem afetar os resultados.

Alertas e SLOs

Defina limites que você possa defender. Exemplos para começar:

TTFT p95 > 1.000 ms por 5 minutos em RPS estável.
O TPS p50 cai em 30% com RPS plano.
Sem GPU < 10% por 5 minutos.
Tempos limite > 1% ou SALA > 0,2% mais de 10 minutos.

Defina um objetivo de nível de serviço (SLO), como “TTFT p95 ≤ 800 ms e taxa de erro ≤ 1% em 28 dias.” Um SLO geralmente faz parte de um contrato de nível de serviço (SLA), que é um contrato formal entre o provedor de serviços e o usuário que especifica padrões de desempenho e qualidade. Rastreie o orçamento de erro e página quando você a queima muito rápido.

Use ferramentas de monitoramento e métodos diferentes para rastrear SLOs e métricas de desempenho. Para alertar, selecione o método mais adequado às suas necessidades operacionais.

Nota: Os SLOs devem ser adaptados às necessidades do provedor de serviços e dos usuários para garantir que sejam significativos e acionáveis.

Testes de carga que você realmente deve executar

Esses são métodos comuns para teste de carga:

Teste de rampa. Esse método aumenta a simultaneidade passo a passo; à medida que as solicitações simultâneas aumentam, o TPS total aumenta até que um ponto de saturação seja atingido, após o qual o desempenho pode diminuir. Continue até que o TTFT p95 quebre seu alvo.
Teste de explosão. Acione uma onda repentina igual ao pico esperado e observe o total de TPS sob carga.
Solicitações mistas. Combine solicitações curtas e longas; observe o comportamento do agendador.
Cancele a tempestade. Interrompa muitos streams de meia geração; verifique a limpeza.
Failover. Reinicie um nó; verifique a recuperação e as novas tentativas do cliente.

Nota: Os resultados podem variar dependendo do método usado e da configuração do sistema.

Armadilhas comuns

Buscando a velocidade de uma única solicitação. A concorrência vence com mais frequência.
Saídas ilimitadas. Gerações longas matam todos os outros de fome, aumentando o uso de recursos e elevando os custos.
Solicitações verbosas do sistema. Caro e muitas vezes ignorado pelo modelo, levando ao uso desnecessário de recursos e a um custo mais alto.
Sem estratégia regional. As chamadas entre regiões adicionam latência evitável.
Contar fichas está errado. Mantenha o tokenizador e o modelo alinhados.

Nota: Essas armadilhas podem levar ao aumento dos custos operacionais e ao uso ineficiente de recursos se não forem gerenciadas adequadamente.

Últimos pensamentos

Concentrar-se em métricas essenciais é mais eficaz do que rastrear muitas. Métricas pequenas e estáveis supere uma parede de gráficos. Assista TTFT e TPS, mantenha as filas curtas e deixe espaço livre na memória. Corrija os avisos e os limites antes de trocar o hardware.

Nota: Simplicidade é fundamental — priorize métricas essenciais para evitar complexidade desnecessária.

Experimente o Compute hoje

Prefere operações previsíveis? Lance um vLLM ponto final ligado Computar na França ou nos Emirados Árabes Unidos, limite os tokens e acompanhe TTFT/TPS desde o primeiro dia.

PERGUNTAS FREQUENTES

O que é TTFT?

Tempo até o primeiro token — o atraso antes do início da saída do modelo, especificamente o tempo necessário para criar o primeiro novo token. Os usuários sentem isso mais do que qualquer outra métrica.

O que é um bom TPS?

O suficiente para manter o bate-papo tranquilo e as filas curtas no tráfego. Meça com suas instruções. O total de TPS (tokens por segundo) reflete a taxa de transferência de todas as solicitações e depende de quantas solicitações são tratadas ao mesmo tempo. Otimize a forma do lote e as tampas para aumentá-lo.

De quantas métricas realmente precisamos?

Os cinco principais abrangem a maioria dos problemas: TTFT, TPS, comprimento da fila, espaço livre de memória da GPU e taxa de acerto do cache. Essas são as métricas de desempenho essenciais para monitorar LLMs. Existem vários métodos para rastrear essas métricas, dependendo da sua infraestrutura e das necessidades de avaliação. Adicione a taxa de solicitação e os tipos de erro para contextualizar.

Como testamos alertas sem acordar as pessoas?

Use tráfego sintético em um ambiente de teste ou aumente temporariamente os limites de produção e dispare uma explosão controlada. Ferramentas de monitoramento e vários métodos podem ser usados para testar sistemas de alerta de forma eficaz.

Precisamos de rastreamento distribuído?

Útil quando você executa vários nós ou um gateway. O rastreamento distribuído é uma das várias ferramentas e métodos de monitoramento para a observabilidade do sistema. Comece com IDs de solicitação e períodos livres; adicione rastreamento à medida que cresce.

O que é TTFT?

O TTFT, ou Time to First Token, mede o atraso entre o envio de uma solicitação e o recebimento do primeiro token da saída do modelo. Essa métrica inclui o tempo de pré-preenchimento, durante o qual o mecanismo de atenção processa a entrada e cria o cache de valores-chave necessário para criar o primeiro token. É uma métrica crítica para a percepção da capacidade de resposta.

Como medir o TTFT?

O TTFT é calculado medindo o tempo necessário para criar o primeiro novo token. Isso envolve registrar o carimbo de data/hora quando uma solicitação é enviada e o carimbo de data/hora quando o primeiro token de saída chega e, em seguida, calcular a diferença.

O que é a métrica TPOT?

O TPOT (Tempo por Token de Saída) é o tempo médio necessário para gerar cada token após o primeiro, refletindo a velocidade de geração do token em estado estacionário. Especificamente, o TPOT mede a latência entre tokens consecutivos produzidos pelo modelo. O cálculo eficiente da atenção pode ajudar a reduzir essa latência entre tokens, melhorando a eficiência geral da decodificação.

O que é TPS no LLM?

TPS significa Tokens por segundo e indica quantos tokens um modelo pode gerar a cada segundo durante a inferência, medindo a taxa de transferência. O TPS está intimamente relacionado às solicitações por segundo, pois ambas as métricas ajudam a avaliar o desempenho do sistema. O TPS total mede a taxa de transferência geral de todas as solicitações tratadas simultaneamente, refletindo a capacidade do sistema de gerar tokens de saída por segundo para todas as solicitações combinadas.

O que é um token por segundo?

Um token por segundo é uma unidade que mede o número de tokens produzidos pelo modelo a cada segundo durante a geração da saída. Essa métrica é calculada dividindo o número de tokens gerados pelo tempo decorrido.

Quantos tokens por segundo é o ChatGPT?

O ChatGPT normalmente gera tokens a uma taxa de cerca de 20 a 30 tokens por segundo, dependendo da carga do servidor e da versão do modelo.

Nota: O TPS pode variar dependendo das métricas de desempenho, como latência e taxa de transferência, bem como das condições do sistema.

Quantas palavras são 1.000 tokens?

Aproximadamente 750 palavras correspondem a 1.000 tokens, já que um token tem em média cerca de 0,75 palavras em inglês. A proporção entre palavras e tokens é calculada com base no tamanho médio da palavra e no processo de tokenização.

7 tokens por segundo são bons?

Sete tokens por segundo são relativamente lentos para muitos aplicativos em tempo real, mas podem ser aceitáveis para gerações mais longas e menos sensíveis ao tempo.

Como medir a inferência?

A inferência é medida usando métodos diferentes, que incluem métricas de desempenho de rastreamento, como latência (TTFT, tempo total de geração) e taxa de transferência (TPS).

Quais são os 5 exemplos de uma inferência?

Os exemplos incluem preenchimento de texto, resposta a perguntas, tradução, resumo e geração de código. Todos esses são exemplos de respostas geradas como saída do modelo.

Quais são as 5 etapas principais da inferência?

O processo de inferência começa com o prompt de entrada, que é tokenizado em tokens de entrada. O mecanismo de atenção processa esses tokens de entrada durante o tempo de pré-preenchimento, criando o cache de valores-chave necessário para que o modelo gere uma resposta. Essa fase de pré-preenchimento é crucial para criar o primeiro novo token, que marca o início da geração do token de saída. O modelo então continua decodificando e gerando tokens de saída até que a resposta seja concluída.

O que significa inferência no tribunal?

No tribunal, a inferência se refere a uma conclusão alcançada com base em evidências e raciocínios, em vez de declarações explícitas.

O que você quer dizer com observabilidade?

A observabilidade é a capacidade de entender o estado interno de um sistema analisando suas saídas, como registros, métricas e rastreamentos, usando ferramentas de monitoramento e vários métodos para avaliar e interpretar o processo e os resultados.

O que é observabilidade versus monitoramento?

O monitoramento usa métricas e alertas predefinidos, geralmente contando com ferramentas de monitoramento e métodos específicos para rastrear a integridade do sistema. Tanto a observabilidade quanto o monitoramento utilizam ferramentas e métodos de monitoramento, mas a observabilidade permite a análise exploratória sem conhecimento prévio, oferecendo uma compreensão mais profunda do processo e fornecendo insights mais profundos.

Quais são os três pilares da observabilidade?

Métricas, registros e rastreamentos são os três pilares que fornecem visibilidade abrangente do sistema, apoiada por várias ferramentas e métodos de monitoramento.

O que é observabilidade no DevOps?

No DevOps, a observabilidade ajuda as equipes a detectar, diagnosticar e resolver problemas de forma proativa coletando e analisando dados de telemetria. A observabilidade depende de ferramentas de monitoramento e vários métodos para analisar o processo, garantindo a detecção e resolução eficazes de problemas.

O que é um cache KV?

Um cache KV (valor-chave) armazena pares intermediários de valores-chave durante a inferência do modelo para acelerar a geração de tokens e permitir o cálculo eficiente da atenção durante a inferência.

O que é cache GPU KV?

O cache KV da GPU se refere ao armazenamento de pares de valores-chave na memória da GPU para otimizar os cálculos de atenção durante a inferência LLM, oferecendo suporte à computação de atenção eficiente.

O que é o cache KV no LLM?

O cache KV contém chaves e valores de atenção calculados anteriormente para evitar cálculos redundantes ao gerar novos tokens. Esse cache é essencial para uma computação eficiente da atenção, permitindo um processamento mais rápido e otimizado durante a geração do token.

O que é cache de armazenamento de valores-chave?

Um cache de armazenamento de valores-chave é uma estrutura de dados que armazena dados indexados por chaves exclusivas para recuperação rápida.

O que você quer dizer com taxa de transferência?

A taxa de transferência é uma métrica chave de desempenho que representa a quantidade de trabalho realizado ou produzida por um sistema em um determinado momento, como tokens gerados por segundo. A taxa de transferência é normalmente calculada como a saída dividida pelo tempo e pode ser medida usando métodos diferentes, dependendo da abordagem de avaliação.

O que é taxa de transferência versus largura de banda?

A taxa de transferência mede os dados reais processados ao longo do tempo, enquanto a largura de banda é a taxa máxima possível de transferência de dados. Tanto a taxa de transferência quanto a largura de banda são métricas de desempenho importantes ao avaliar a eficiência do sistema.

O que é um exemplo de taxa de transferência?

A taxa de transferência é uma métrica de desempenho calculada como tokens por segundo. Por exemplo, gerar 100 tokens por segundo durante a inferência do LLM demonstra a produtividade.

Qual é outra palavra para taxa de transferência?

Taxa de saída ou taxa de processamento.

A latência de 95 é boa?

Uma latência do percentil 95 abaixo de 500 milissegundos geralmente é considerada boa para aplicativos em tempo real.

O que é latência de cauda p95?

A latência final do P95 é o valor de latência abaixo do qual 95% das solicitações são concluídas, indicando o pior desempenho possível para a maioria dos usuários.

O que é latência P50?

A latência P50 é a latência média, o que significa que metade das solicitações são concluídas mais rápido e metade mais lentamente do que esse valor.

O p95 é uma média?

Não, p95 é uma métrica de percentil que representa o valor abaixo do qual 95% das observações caem, não uma média. Tanto o p95 quanto a média são tipos de métricas de desempenho usadas para avaliar e comparar o desempenho do sistema.

Qual é o conceito de orçamento de erro?

Um orçamento de erro define o limite permitido de erros ou violações de latência em um período de serviço para equilibrar confiabilidade e inovação. Os orçamentos de erro geralmente fazem parte de um contrato de nível de serviço (SLA) entre o provedor de serviços e o usuário e são baseados em métricas de desempenho, como latência e taxa de transferência.

Como você calcula o orçamento de erro?

O orçamento de erro é calculado usando métricas de desempenho da seguinte forma: Orçamento de erro = (1 - meta de SLO) × total de solicitações ou período de tempo.

Qual é a diferença entre orçamento de erro e SLO?

O SLO (Objetivo de Nível de Serviço) define a meta de desempenho como parte de um contrato de nível de serviço entre o provedor de serviços e o usuário e é baseado em métricas de desempenho; o orçamento de erro quantifica os desvios permitidos dessa meta.

O que é um erro de orçamento?

Um erro de orçamento ocorre quando o orçamento de erro é excedido, indicando problemas de confiabilidade do serviço e possíveis problemas com métricas de desempenho, como latência, taxa de transferência ou outros resultados de benchmarking.

O que é uma memória GPU?

A memória GPU é a RAM dedicada em uma unidade de processamento gráfico usada para armazenar dados e cálculos durante o processamento. É um aspecto fundamental do uso de recursos, pois o monitoramento da memória da GPU ajuda a rastrear a utilização geral de recursos e as métricas de desempenho nas soluções de observabilidade do LLM.

Quanta memória de GPU eu preciso?

A memória de GPU necessária depende do tamanho do modelo, do tamanho do lote, da precisão, do uso de recursos e de vários fatores, como taxa de transferência, latência e qualidade de resposta; modelos e lotes maiores exigem mais memória.

O que está usando a memória GPU?

O uso da memória da GPU se refere à alocação da RAM da GPU para parâmetros do modelo, dados intermediários e computação durante a inferência. Essa é uma forma de uso de recursos, pois rastrear a utilização da memória da GPU é essencial para entender o desempenho geral e a eficiência do sistema.

Como faço para verificar a memória da GPU?

Você pode verificar o uso da memória da GPU com ferramentas como nvidia-smi em GPUs NVIDIA, software de monitoramento do sistema ou ferramentas de monitoramento especializadas projetadas para observabilidade avançada. As ferramentas de monitoramento podem ajudar a monitorar o uso da memória da GPU, alertá-lo sobre problemas e fornecer métricas detalhadas para um gerenciamento eficaz do sistema.

‍

Quando os estudantes de IA superam a sandbox: como a DSTI expandiu seu acesso à GPU com a Hivenet

A DSTI School of Engineering fez parceria com a Hivenet para oferecer aos alunos de mestrado um acesso mais consistente à computação de GPU europeia acessível para projetos reais de aprendizado profundo.