Contexto longo versus RAG para aplicativos reais: custos, latência e precisão

Esta postagem do blog explora o impacto de modelos de linguagem de contexto longo e fluxos de trabalho RAG, comparando sua eficácia e eficiência para aprimorar o conhecimento do modelo em tempo de inferência. Examinamos modelos de linguagem de contexto longo (também chamados de modelos de contexto longo) e fluxos de trabalho de geração aumentada de recuperação (RAG), que envolvem um processo de duas etapas de recuperação de informações relevantes e geração de respostas.

Modelos de linguagem de contexto longo

Os LLMs de contexto longo podem lidar com janelas de contexto de até um milhão de tokens, significativamente maiores do que os modelos tradicionais, permitindo que eles processem informações abrangentes em uma única inferência. Além disso, os LLMs de longo contexto melhoram a capacidade de se envolver em conversas coerentes e de vários turnos com os usuários, referenciando todo o histórico de conversas. Eles também aprimoram a retenção do contexto em interações e documentos mais longos, levando a uma melhor compreensão de relacionamentos e dependências complexas. Além disso, LLMs de contexto longo ajudam a manter a consistência do personagem e a coerência do enredo em narrativas longas para trabalhos criativos.

Contexto longo versus fluxos de trabalho RAG

Há duas maneiras honestas de fornecer aos modelos mais conhecimento no momento da inferência: aumentar a janela de contexto com modelos de contexto longos ou buscar o texto certo sob demanda usando fluxos de trabalho RAG. É fácil raciocinar sobre janelas maiores, enquanto a recuperação em fluxos de trabalho RAG geralmente é mais barata em escala e pode reduzir significativamente os custos computacionais e financeiros. Usar LLMs de contexto longo é mais fácil em comparação aos sistemas RAG, pois eles exigem menos componentes e etapas de configuração. Modelos de contexto longo também simplificam os fluxos de trabalho para desenvolvedores, permitindo que documentos grandes sejam ingeridos diretamente sem dividi-los em partes menores. Além disso, eles podem fornecer centenas de exemplos em um único prompt, permitindo um aprendizado aprimorado no contexto sem a necessidade de ajustes finos caros. Modelos de longo contexto podem analisar extensas transcrições de conversas de vários canais para criar resumos coesos para agentes de atendimento ao cliente.

Experimente o Compute hoje
Ligado Computar, você pode lançar um vLLM servidor de inferência e defina seu próprio comprimento de contexto e limites de saída. Comece com um modelo 7B, transmita tokens e meça TTFT/TPS antes de decidir abrir a janela.

Matemática de custos em que você pode confiar

Pense em tokens. Cada token de prompt que você adiciona é uma memória que deve estar no cache KV. Cada token de saída extra leva tempo para ser gerado.

Custo de contexto longo. Escalas de custo com duração imediata em cada chamada. O servidor contém mais blocos de cache e passa mais tempo em pré-preenchimento.
Custo do RAG. Você paga pela recuperação uma vez por solicitação (pesquisa vetorial, reclassificação), o que pode envolver a pesquisa em um banco de dados vetorial ou em outros bancos de dados para obter informações relevantes. Os prompts permanecem curtos e estáveis.

Uma tabela pode ser usada para resumir as métricas de custo ou desempenho de ambas as abordagens.

Uma verificação rápida: se sua solicitação média aumentar em milhares de tokens para incluir texto fonte bruto, espere maior uso de memória da GPU, maior pré-preenchimento e mais gastos. Se apenas alguns parágrafos importam, a recuperação mantém as instruções rígidas e previsíveis.

Latência e taxa de transferência

Contexto longo. O pré-preenchimento fica mais lento à medida que o prompt aumenta, afetando o desempenho do sistema. A taxa de transferência diminui quando o cache é preenchido. O tempo até o primeiro token (TTFT) aumenta sob carga, tornando importante avaliar a latência e a taxa de transferência como principais métricas de desempenho. Estudos mostram que contextos extremamente longos às vezes podem degradar o desempenho devido à sobrecarga de informações. Os modelos de longo contexto também têm dificuldade em se concentrar em informações relevantes, o que leva a uma baixa qualidade de resposta.
TRAPO. A recuperação adiciona um pequeno salto, mas a decodificação começa mais cedo porque a solicitação é curta. Com um bom cache, o TTFT se mantém estável à medida que o tráfego aumenta. Quando você avalia o desempenho médio em diferentes cargas, o RAG geralmente mantém um desempenho mais consistente em comparação com abordagens de contexto longo.

Escolhendo a abordagem correta

A escolha certa depende de suas solicitações, de sua meta de latência, de seu orçamento e dos custos financeiros associados a cada abordagem. A estrutura RAG original foi apresentada em um artigo de 2020 da Meta, que influenciou muito os fluxos de trabalho atuais do RAG e o desenvolvimento contínuo de modelos de linguagem de contexto longo. O RAG integra os dados mais atuais ao processo de tomada de decisão dos modelos de linguagem, garantindo que as informações usadas sejam as mais recentes disponíveis. O RAG extrai texto relevante de bancos de dados, documentos enviados ou fontes da Web para melhorar as respostas, o que ajuda a reduzir erros ou alucinações nas saídas de IA. Por outro lado, os LLMs de longo contexto podem analisar documentos legais inteiros em uma única passagem, permitindo um resumo e uma avaliação de riscos mais completos. Contextos maiores tornam os LLMs de contexto longo capazes de capturar informações mais relevantes para tarefas de controle de qualidade.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Quando o contexto longo vence

Pesquisas curtas e raras. Solicitações longas ocasionais em que a simplicidade supera um novo sistema e as limitações de tamanho e custo do contexto não são uma preocupação.
Poucos documentos, controle rígido. Você possui e limpa o texto, e a janela permanece dentro dos limites do modelo, ajudando o modelo a manter o foco nas principais informações.
Prototipagem. Você precisa de respostas hoje e pode aceitar custos mais altos enquanto aprende, mesmo que as limitações do modelo em lidar com contextos muito longos ou manter o foco possam afetar a confiabilidade.

Quando o RAG vence

Grandes corpora. Muitos documentos em que apenas alguns trechos são relevantes. O RAG recupera informações relevantes e documentos recuperados de fontes externas, como bancos de dados vetoriais, garantindo que somente os dados mais pertinentes sejam usados para responder a cada consulta do usuário.
Consultas frequentes. Você se beneficia do armazenamento em cache dos blocos recuperados e das solicitações do sistema. Os sistemas RAG usam um modelo de incorporação para recuperar dados e recuperar informações relevantes para cada consulta ou pergunta do usuário, melhorando a eficiência e a precisão das respostas às consultas do usuário.
Necessidades de conformidade. Você pode registrar quais informações recuperadas ou principais informações apoiaram cada resposta, fornecendo rastreabilidade e transparência. O RAG é mais fácil de depurar e avaliar porque permite seguir um tópico da pergunta à resposta.

O RAG também pode incorporar dados estruturados e novos dados no prompt aumentado, melhorando a relevância e a estrutura das respostas. Ao processar longos documentos de ensaios clínicos, os LLMs de longo contexto ajudam os profissionais de saúde a sintetizar informações e extrair as principais descobertas. Além disso, eles podem ingerir e analisar grandes volumes de dados e relatórios financeiros para identificar anomalias e padrões fraudulentos.

Padrões híbridos que funcionam

Resumos de cabeçalhos + recuperação. Mantenha um preâmbulo curto e fixo com definições e políticas. Divida o documento relevante em pedaços de texto e busque exemplos por solicitação de recuperação.
Solicitações em dois estágios. Primeiro, peça um plano com base nas notas recuperadas usando os mesmos dados para o planejamento e a resposta final. Em seguida, escreva a resposta final com letras maiúsculas nos tokens.
A memória é cortada. Mantenha os últimos turnos. Armazene o resto da conversa fora do prompt e recupere sob demanda. O RAG exige anexar documentos externos e usar os mesmos dados para todas as suas tarefas.

Etapas de avaliação simples

Defina tarefas. Escolha de 20 a 50 solicitações reais e resultados esperados.
Meça os números. Acompanhe TTFT, tokens por segundo e precisão em ambas as estratégias. Métricas como TTFT e precisão devem ser calculadas para avaliar o desempenho do sistema. Considere usar uma tabela para resumir os resultados calculados para facilitar a comparação.
Teste de estresse. Corra em concorrência crescente até que o TTFT p95 cruze seu alvo.
Verificação de orçamento. Compare o custo por 1.000 solicitações usando contagens reais de tokens.
Legibilidade. Examine uma amostra de respostas para verificar a fidelidade e o uso da fonte. Os LLMs têm melhor desempenho quando as principais informações estão no início ou no final da entrada.

Lista de verificação rápida

Por padrão, mantenha os prompts curtos e otimize o prompt llm para maior eficiência.
Use a recuperação para textos grandes ou que mudam com frequência.
Limite max_tokens e imponha o comprimento da saída.
Armazene incorporações em cache e resultados de recuperação, incluindo o armazenamento de representações numéricas para uma recuperação mais rápida, onde for seguro.
Contagens de tokens de registro, TTFT, DICAS.
Reavalie depois que os padrões de uso mudarem.

Últimos pensamentos

O contexto longo é simples de configurar. A recuperação é sustentável em grande escala. Execute os dois com as mesmas solicitações, meça TTFT e tokens por solicitação e deixe os números decidirem. Ambas as abordagens visam fornecer respostas precisas e responder de forma eficaz às necessidades do usuário, com o objetivo final de responder às perguntas usando as melhores informações disponíveis. No entanto, o RAG continua sendo a solução mais acessível e rápida em comparação com janelas de contexto longo.

Experimente o Compute hoje

‍Lance um Endpoint vLLM na computação, escolha uma região próxima aos usuários e ajuste os limites de contexto e saída. Por padrão, mantenha as instruções curtas e deixe a recuperação carregar o peso

PERGUNTAS FREQUENTES

Qual deve ser o tamanho dos pedaços no RAG?

Comece com 200 a 400 tokens e se sobreponha em 10 a 20%. Ajuste com seu próprio conjunto de avaliação. Ao ajustar o tamanho do bloco, considere também o número total de blocos de texto gerados, pois isso pode afetar o desempenho da recuperação. Pedaços menores melhoram a recuperação; pedaços maiores ajudam na coerência. Equilibre com um reclassificador.

Um contexto longo reduz as alucinações?

Um LLM (Large Language Model) de contexto longo é um modelo de linguagem projetado para manipular e processar grandes quantidades de texto em sua janela de contexto, permitindo que ele considere informações abrangentes em uma única inferência. As principais diferenças entre LLMs de contexto longo e LLMs padrão incluem maior capacidade de resumir livros longos e analisar vastas bases de código.

Como faço para encontrar o ponto de equilíbrio?

Compare o custo e a latência para suas solicitações reais de aumento de tráfego. Avalie o desempenho médio de abordagens de contexto longo e RAG em seus conjuntos de dados para determinar onde sua eficácia se alinha. O ponto em que as horas de TTFT e GPU de contexto longo passam pelo RAG com a mesma precisão é seu sinal para alternar.

Eu preciso Várias GPUs para um contexto longo?

Somente se os tamanhos da janela e do lote não couberem em um cartão com espaço livre. Experimente primeiro a quantização ou modelos menores.

E quanto aos aplicativos muito pequenos?

Se o tráfego estiver fraco e o texto for pequeno, um contexto mais longo pode ser mais simples. Mantenha as tampas fechadas e deixe fluir.

O que é LLM de longo contexto?

Qual é a diferença entre o RAG e o LLM de longo contexto?

O RAG (Retrieval-Augmented Generation) recupera documentos externos relevantes para aumentar dinamicamente a entrada do modelo, enquanto os LLMs de contexto longo dependem de uma janela de contexto fixa muito grande para processar todas as informações diretamente. O RAG continua manipulando dados com eficiência, incorporando ferramentas complexas, como reescrita de consultas e pesquisas vetoriais otimizadas.

Qual é a duração do contexto de um LLM?

Refere-se ao número máximo de tokens que o modelo pode processar em um único prompt de entrada, incluindo a entrada do usuário e qualquer contexto adicional.

Por que os LLMs têm limites de contexto?

Os limites de contexto existem devido a restrições computacionais e requisitos de memória para processar grandes sequências de tokens de forma eficiente.

Quanto custa um TOKEN?

O custo do TOKEN se refere aos recursos computacionais e ao tempo necessários para processar ou gerar cada token na saída ou entrada de um modelo.

Qual é o preço do TOKEN?

O preço do TOKEN é o custo monetário associado ao processamento ou geração de tokens, geralmente cobrado pelos provedores de serviços de IA.

Qual é o custo de um TOKEN na IA?

Ele representa o uso de recursos, como tempo e memória da GPU, necessários para lidar com cada token durante a inferência do modelo.

O que significa um preço de TOKEN?

Ele indica quanto um usuário paga por token processado ou gerado em um serviço de IA.

O que você quer dizer com latência?

A latência é o atraso entre o envio de uma solicitação ao modelo e o recebimento da resposta.

O que é uma boa velocidade de latência?

Uma boa velocidade de latência depende do aplicativo, mas geralmente varia de milissegundos a alguns segundos para sistemas de IA voltados para o usuário.

O que é latência em termos médicos?

Na medicina, a latência se refere ao tempo entre a exposição a um estímulo e a resposta ou o início dos sintomas.

O que é latência versus atraso?

A latência é o atraso inicial antes do início da transferência de dados, enquanto o atraso pode se referir a qualquer atraso ou tempo de espera durante o processo.

Como funciona o cache imediato?

O cache de prompts armazena solicitações processadas anteriormente ou partes de solicitações para acelerar a geração de respostas para entradas repetidas ou similares.

O que é cache imediato no OpenAI?

É um mecanismo para reutilizar partes do estado interno do modelo para solicitações idênticas ou similares para reduzir a computação e a latência.

O cache imediato é o mesmo que o cache KV?

O cache KV (cache de valores-chave) é uma forma de cache imediato que armazena estados de atenção intermediários para evitar o recálculo durante a geração do token.

Qual é a diferença entre ajuste fino e cache de prompts?

O ajuste fino ajusta os pesos do modelo com base nos dados de treinamento, enquanto o cache imediato otimiza a velocidade de inferência reutilizando cálculos sem alterar o modelo. Os LLMs de longo contexto requerem recursos computacionais substanciais devido às suas grandes capacidades de processamento de contexto.

O que é geração aumentada de recuperação?

O RAG é um método em que um modelo recupera documentos externos relevantes ou partes de documentos para aumentar sua entrada antes de gerar uma resposta, melhorando a precisão e a fundamentação.

O ChatGPT é um RAG?

O ChatGPT em si não é inerentemente um sistema RAG, mas pode ser combinado com mecanismos de recuperação para funcionar como um só.

O que é RAG com exemplo?

O RAG envolve a recuperação de documentos relevantes, como políticas da empresa, para responder à pergunta de um usuário com precisão, aumentando a solicitação do modelo com esses documentos. O desempenho dos sistemas RAG pode ser comparado usando conjuntos de dados como o Natural Questions, que fornecem uma maneira padronizada de avaliar o quão bem os modelos respondem a consultas de conhecimento geral.

O que é LLM e RAG?

O LLM (Large Language Model) é uma rede neural treinada para entender e gerar a linguagem humana. O RAG (Retrieval-Augmented Generation) aprimora os LLMs para integrar a recuperação de informações para melhorar as respostas.

‍

Quando os estudantes de IA superam a sandbox: como a DSTI expandiu seu acesso à GPU com a Hivenet

A DSTI School of Engineering fez parceria com a Hivenet para oferecer aos alunos de mestrado um acesso mais consistente à computação de GPU europeia acessível para projetos reais de aprendizado profundo.