
Os usuários sentem demora antes de ver as palavras. A baixa latência é crucial para uma boa experiência do usuário e para otimizar o desempenho de um modelo, pois minimizar os tempos de resposta afeta diretamente a percepção dos usuários sistemas generativos de IA. Os sistemas falham quando as filas se estendem e a memória se esgota. Um pequeno conjunto de métricas pode avisá-lo antecipadamente e indicar a solução certa. O rastreamento dessas métricas é crucial para garantir a confiabilidade do sistema e manter o desempenho do modelo. Mantenha a lista curta, conecte-a bem e torne os alertas enfadonhos.
Ligado Computar, uma vLLM ponto final fornece um URL HTTPS com rotas no estilo OpenAI e capacidade previsível. Coloque-o perto dos usuários e, em seguida, assista a TTFT, TPS e cache headroom.
Essas são as principais métricas de desempenho para inferência de LLM. Vários fatores, como complexidade do prompt de entrada, uso de recursos e configuração do sistema, influenciam essas métricas. Ferramentas de monitoramento e métodos diferentes são usados para rastreá-los e analisá-los.
Tempo até o primeiro token (TTFT). Lacuna entre o envio da solicitação e o primeiro token. O número mais importante para a percepção dos tempos de resposta e da experiência do usuário. O mecanismo de atenção e o tempo de pré-preenchimento contribuem significativamente para o atraso antes do primeiro token, pois o modelo processa os tokens de entrada e constrói seu cache de valores-chave antes de gerar respostas. Rastreie p50 e p95. O token final marca o fim de uma resposta.
Tokens por segundo (TPS). Taxa de transferência após o início dos tokens. Quanto maior, melhor para UX e capacidade. O TPS é calculado com base em quantas solicitações são processadas e no número de tokens de saída gerados por segundo para todas as solicitações, geralmente medidos junto com as solicitações por segundo. A latência entre tokens é o tempo médio entre tokens consecutivos, e o TPS total é uma métrica fundamental para a taxa de transferência do sistema. O cálculo eficiente da atenção pode ajudar a reduzir a latência entre tokens. Acompanhe p50 e p95.
Comprimento da fila. Solicitações aguardando um slot de decodificação. Aumentar o comprimento com tráfego estável é igual a problemas.
Espaço livre de memória da GPU. VRAM grátis durante os picos. A baixa altura livre prevê falhas, partidas lentas e despejos. O uso de recursos e as implicações de custo devem ser considerados ao monitorar a memória da GPU.
Taxa de acerto do cache. Integridade do cache KV e de qualquer cache de prompt. Taxas de acerto mais baixas geralmente explicam o aumento do TTFT.
Tempo de pré-preenchimento versus decodificação. O tempo de pré-preenchimento é afetado pelo prompt de entrada e pelo número de tokens de entrada, pois esses fatores determinam quanto tempo o modelo passa na fase de pré-preenchimento antes da decodificação.
Taxa de erro por tipo. A complexidade e outros fatores podem influenciar as taxas de erro, portanto, o rastreamento por tipo ajuda a identificar as causas principais.
Nota: Essas métricas podem variar dependendo da configuração do sistema, da complexidade da carga de trabalho e do provedor de serviços.
Taxa de solicitação (RPS). Combina com o comprimento da fila para explicar a pressão. A taxa de solicitação normalmente é calculada como solicitações por segundo, fornecendo uma medida quantitativa da taxa de transferência do sistema.
Tempo de pré-preenchimento versus decodificação. Dividi-las ajuda a isolar solicitações longas da geração lenta. A solicitação de entrada e o número de tokens de entrada são fatores-chave que afetam o tempo de pré-preenchimento, pois solicitações mais complexas ou longas podem aumentar a duração do processamento.
Taxa de erro por tipo. OOM, tempos limite, 4xx/5xx. Agrupe por rota e modelo. A complexidade e outros fatores podem influenciar as taxas de erro, tornando importante analisar os tipos de erro no contexto.
Latência de rede. RTT do endpoint Client ↔ por região. Os picos aqui podem imitar a lentidão do servidor.
Térmicas e relógios. A limitação aparece como TPS plano e TTFT crescente. Monitorar o uso e o custo dos recursos é importante ao avaliar o espaço livre de memória da GPU ou as taxas de erro, pois elas podem afetar o desempenho e o orçamento.
As métricas de suporte são monitoradas usando ferramentas de monitoramento para garantir uma observabilidade abrangente e a detecção oportuna de problemas.
A instrumentação eficaz para a observabilidade do LLM depende de ferramentas de monitoramento e vários métodos para garantir rastreamento e análise abrangentes.
Os painéis são criados usando ferramentas de monitoramento para visualizar as principais métricas de desempenho para grandes modelos de linguagem (LLMs).
“Os usuários estão se sentindo lentos no momento?”
TTFT p50/p95 ao longo do tempo com sobreposição de tráfego. Perfure por região e modelo. Os tempos de resposta e as respostas são indicadores-chave da experiência do usuário.
“Podemos aguentar mais carga?”
TPS p50/p95, comprimento da fila e espaço livre de memória da GPU. TPS plano + fila crescente = ainda não.
“Por que a latência aumentou?”
Divida o pré-preenchimento versus a decodificação, adicione RTT de rede. Pré-preenchimento longo → avisos muito grandes. Decodificação longa → tampas ou formato de lote.
“Estamos desperdiçando fichas?”
Distribuição de tokens de saída versus seus limites. Cauda grande = configurações soltas.
Observação: as métricas do painel devem ser interpretadas no contexto, pois variações nas condições de medição ou nas configurações do modelo podem afetar os resultados.
Defina limites que você possa defender. Exemplos para começar:
Defina um objetivo de nível de serviço (SLO), como “TTFT p95 ≤ 800 ms e taxa de erro ≤ 1% em 28 dias.” Um SLO geralmente faz parte de um contrato de nível de serviço (SLA), que é um contrato formal entre o provedor de serviços e o usuário que especifica padrões de desempenho e qualidade. Rastreie o orçamento de erro e página quando você a queima muito rápido.
Use ferramentas de monitoramento e métodos diferentes para rastrear SLOs e métricas de desempenho. Para alertar, selecione o método mais adequado às suas necessidades operacionais.
Nota: Os SLOs devem ser adaptados às necessidades do provedor de serviços e dos usuários para garantir que sejam significativos e acionáveis.
Esses são métodos comuns para teste de carga:
Nota: Os resultados podem variar dependendo do método usado e da configuração do sistema.
Nota: Essas armadilhas podem levar ao aumento dos custos operacionais e ao uso ineficiente de recursos se não forem gerenciadas adequadamente.
Concentrar-se em métricas essenciais é mais eficaz do que rastrear muitas. Métricas pequenas e estáveis supere uma parede de gráficos. Assista TTFT e TPS, mantenha as filas curtas e deixe espaço livre na memória. Corrija os avisos e os limites antes de trocar o hardware.
Nota: Simplicidade é fundamental — priorize métricas essenciais para evitar complexidade desnecessária.
Experimente o Compute hoje
Prefere operações previsíveis? Lance um vLLM ponto final ligado Computar na França ou nos Emirados Árabes Unidos, limite os tokens e acompanhe TTFT/TPS desde o primeiro dia.
Tempo até o primeiro token — o atraso antes do início da saída do modelo, especificamente o tempo necessário para criar o primeiro novo token. Os usuários sentem isso mais do que qualquer outra métrica.
O suficiente para manter o bate-papo tranquilo e as filas curtas no tráfego. Meça com suas instruções. O total de TPS (tokens por segundo) reflete a taxa de transferência de todas as solicitações e depende de quantas solicitações são tratadas ao mesmo tempo. Otimize a forma do lote e as tampas para aumentá-lo.
Os cinco principais abrangem a maioria dos problemas: TTFT, TPS, comprimento da fila, espaço livre de memória da GPU e taxa de acerto do cache. Essas são as métricas de desempenho essenciais para monitorar LLMs. Existem vários métodos para rastrear essas métricas, dependendo da sua infraestrutura e das necessidades de avaliação. Adicione a taxa de solicitação e os tipos de erro para contextualizar.
Use tráfego sintético em um ambiente de teste ou aumente temporariamente os limites de produção e dispare uma explosão controlada. Ferramentas de monitoramento e vários métodos podem ser usados para testar sistemas de alerta de forma eficaz.
Útil quando você executa vários nós ou um gateway. O rastreamento distribuído é uma das várias ferramentas e métodos de monitoramento para a observabilidade do sistema. Comece com IDs de solicitação e períodos livres; adicione rastreamento à medida que cresce.
O TTFT, ou Time to First Token, mede o atraso entre o envio de uma solicitação e o recebimento do primeiro token da saída do modelo. Essa métrica inclui o tempo de pré-preenchimento, durante o qual o mecanismo de atenção processa a entrada e cria o cache de valores-chave necessário para criar o primeiro token. É uma métrica crítica para a percepção da capacidade de resposta.
O TTFT é calculado medindo o tempo necessário para criar o primeiro novo token. Isso envolve registrar o carimbo de data/hora quando uma solicitação é enviada e o carimbo de data/hora quando o primeiro token de saída chega e, em seguida, calcular a diferença.
O TPOT (Tempo por Token de Saída) é o tempo médio necessário para gerar cada token após o primeiro, refletindo a velocidade de geração do token em estado estacionário. Especificamente, o TPOT mede a latência entre tokens consecutivos produzidos pelo modelo. O cálculo eficiente da atenção pode ajudar a reduzir essa latência entre tokens, melhorando a eficiência geral da decodificação.
TPS significa Tokens por segundo e indica quantos tokens um modelo pode gerar a cada segundo durante a inferência, medindo a taxa de transferência. O TPS está intimamente relacionado às solicitações por segundo, pois ambas as métricas ajudam a avaliar o desempenho do sistema. O TPS total mede a taxa de transferência geral de todas as solicitações tratadas simultaneamente, refletindo a capacidade do sistema de gerar tokens de saída por segundo para todas as solicitações combinadas.
Um token por segundo é uma unidade que mede o número de tokens produzidos pelo modelo a cada segundo durante a geração da saída. Essa métrica é calculada dividindo o número de tokens gerados pelo tempo decorrido.
O ChatGPT normalmente gera tokens a uma taxa de cerca de 20 a 30 tokens por segundo, dependendo da carga do servidor e da versão do modelo.
Nota: O TPS pode variar dependendo das métricas de desempenho, como latência e taxa de transferência, bem como das condições do sistema.
Aproximadamente 750 palavras correspondem a 1.000 tokens, já que um token tem em média cerca de 0,75 palavras em inglês. A proporção entre palavras e tokens é calculada com base no tamanho médio da palavra e no processo de tokenização.
Sete tokens por segundo são relativamente lentos para muitos aplicativos em tempo real, mas podem ser aceitáveis para gerações mais longas e menos sensíveis ao tempo.
A inferência é medida usando métodos diferentes, que incluem métricas de desempenho de rastreamento, como latência (TTFT, tempo total de geração) e taxa de transferência (TPS).
Os exemplos incluem preenchimento de texto, resposta a perguntas, tradução, resumo e geração de código. Todos esses são exemplos de respostas geradas como saída do modelo.
O processo de inferência começa com o prompt de entrada, que é tokenizado em tokens de entrada. O mecanismo de atenção processa esses tokens de entrada durante o tempo de pré-preenchimento, criando o cache de valores-chave necessário para que o modelo gere uma resposta. Essa fase de pré-preenchimento é crucial para criar o primeiro novo token, que marca o início da geração do token de saída. O modelo então continua decodificando e gerando tokens de saída até que a resposta seja concluída.
No tribunal, a inferência se refere a uma conclusão alcançada com base em evidências e raciocínios, em vez de declarações explícitas.
A observabilidade é a capacidade de entender o estado interno de um sistema analisando suas saídas, como registros, métricas e rastreamentos, usando ferramentas de monitoramento e vários métodos para avaliar e interpretar o processo e os resultados.
O monitoramento usa métricas e alertas predefinidos, geralmente contando com ferramentas de monitoramento e métodos específicos para rastrear a integridade do sistema. Tanto a observabilidade quanto o monitoramento utilizam ferramentas e métodos de monitoramento, mas a observabilidade permite a análise exploratória sem conhecimento prévio, oferecendo uma compreensão mais profunda do processo e fornecendo insights mais profundos.
Métricas, registros e rastreamentos são os três pilares que fornecem visibilidade abrangente do sistema, apoiada por várias ferramentas e métodos de monitoramento.
No DevOps, a observabilidade ajuda as equipes a detectar, diagnosticar e resolver problemas de forma proativa coletando e analisando dados de telemetria. A observabilidade depende de ferramentas de monitoramento e vários métodos para analisar o processo, garantindo a detecção e resolução eficazes de problemas.
Um cache KV (valor-chave) armazena pares intermediários de valores-chave durante a inferência do modelo para acelerar a geração de tokens e permitir o cálculo eficiente da atenção durante a inferência.
O cache KV da GPU se refere ao armazenamento de pares de valores-chave na memória da GPU para otimizar os cálculos de atenção durante a inferência LLM, oferecendo suporte à computação de atenção eficiente.
O cache KV contém chaves e valores de atenção calculados anteriormente para evitar cálculos redundantes ao gerar novos tokens. Esse cache é essencial para uma computação eficiente da atenção, permitindo um processamento mais rápido e otimizado durante a geração do token.
Um cache de armazenamento de valores-chave é uma estrutura de dados que armazena dados indexados por chaves exclusivas para recuperação rápida.
A taxa de transferência é uma métrica chave de desempenho que representa a quantidade de trabalho realizado ou produzida por um sistema em um determinado momento, como tokens gerados por segundo. A taxa de transferência é normalmente calculada como a saída dividida pelo tempo e pode ser medida usando métodos diferentes, dependendo da abordagem de avaliação.
A taxa de transferência mede os dados reais processados ao longo do tempo, enquanto a largura de banda é a taxa máxima possível de transferência de dados. Tanto a taxa de transferência quanto a largura de banda são métricas de desempenho importantes ao avaliar a eficiência do sistema.
A taxa de transferência é uma métrica de desempenho calculada como tokens por segundo. Por exemplo, gerar 100 tokens por segundo durante a inferência do LLM demonstra a produtividade.
Taxa de saída ou taxa de processamento.
Uma latência do percentil 95 abaixo de 500 milissegundos geralmente é considerada boa para aplicativos em tempo real.
A latência final do P95 é o valor de latência abaixo do qual 95% das solicitações são concluídas, indicando o pior desempenho possível para a maioria dos usuários.
A latência P50 é a latência média, o que significa que metade das solicitações são concluídas mais rápido e metade mais lentamente do que esse valor.
Não, p95 é uma métrica de percentil que representa o valor abaixo do qual 95% das observações caem, não uma média. Tanto o p95 quanto a média são tipos de métricas de desempenho usadas para avaliar e comparar o desempenho do sistema.
Um orçamento de erro define o limite permitido de erros ou violações de latência em um período de serviço para equilibrar confiabilidade e inovação. Os orçamentos de erro geralmente fazem parte de um contrato de nível de serviço (SLA) entre o provedor de serviços e o usuário e são baseados em métricas de desempenho, como latência e taxa de transferência.
O orçamento de erro é calculado usando métricas de desempenho da seguinte forma: Orçamento de erro = (1 - meta de SLO) × total de solicitações ou período de tempo.
O SLO (Objetivo de Nível de Serviço) define a meta de desempenho como parte de um contrato de nível de serviço entre o provedor de serviços e o usuário e é baseado em métricas de desempenho; o orçamento de erro quantifica os desvios permitidos dessa meta.
Um erro de orçamento ocorre quando o orçamento de erro é excedido, indicando problemas de confiabilidade do serviço e possíveis problemas com métricas de desempenho, como latência, taxa de transferência ou outros resultados de benchmarking.
A memória GPU é a RAM dedicada em uma unidade de processamento gráfico usada para armazenar dados e cálculos durante o processamento. É um aspecto fundamental do uso de recursos, pois o monitoramento da memória da GPU ajuda a rastrear a utilização geral de recursos e as métricas de desempenho nas soluções de observabilidade do LLM.
A memória de GPU necessária depende do tamanho do modelo, do tamanho do lote, da precisão, do uso de recursos e de vários fatores, como taxa de transferência, latência e qualidade de resposta; modelos e lotes maiores exigem mais memória.
O uso da memória da GPU se refere à alocação da RAM da GPU para parâmetros do modelo, dados intermediários e computação durante a inferência. Essa é uma forma de uso de recursos, pois rastrear a utilização da memória da GPU é essencial para entender o desempenho geral e a eficiência do sistema.
Você pode verificar o uso da memória da GPU com ferramentas como nvidia-smi em GPUs NVIDIA, software de monitoramento do sistema ou ferramentas de monitoramento especializadas projetadas para observabilidade avançada. As ferramentas de monitoramento podem ajudar a monitorar o uso da memória da GPU, alertá-lo sobre problemas e fornecer métricas detalhadas para um gerenciamento eficaz do sistema.