
Esta postagem do blog explora o impacto de modelos de linguagem de contexto longo e fluxos de trabalho RAG, comparando sua eficácia e eficiência para aprimorar o conhecimento do modelo em tempo de inferência. Examinamos modelos de linguagem de contexto longo (também chamados de modelos de contexto longo) e fluxos de trabalho de geração aumentada de recuperação (RAG), que envolvem um processo de duas etapas de recuperação de informações relevantes e geração de respostas.
Os LLMs de contexto longo podem lidar com janelas de contexto de até um milhão de tokens, significativamente maiores do que os modelos tradicionais, permitindo que eles processem informações abrangentes em uma única inferência. Além disso, os LLMs de longo contexto melhoram a capacidade de se envolver em conversas coerentes e de vários turnos com os usuários, referenciando todo o histórico de conversas. Eles também aprimoram a retenção do contexto em interações e documentos mais longos, levando a uma melhor compreensão de relacionamentos e dependências complexas. Além disso, LLMs de contexto longo ajudam a manter a consistência do personagem e a coerência do enredo em narrativas longas para trabalhos criativos.
Há duas maneiras honestas de fornecer aos modelos mais conhecimento no momento da inferência: aumentar a janela de contexto com modelos de contexto longos ou buscar o texto certo sob demanda usando fluxos de trabalho RAG. É fácil raciocinar sobre janelas maiores, enquanto a recuperação em fluxos de trabalho RAG geralmente é mais barata em escala e pode reduzir significativamente os custos computacionais e financeiros. Usar LLMs de contexto longo é mais fácil em comparação aos sistemas RAG, pois eles exigem menos componentes e etapas de configuração. Modelos de contexto longo também simplificam os fluxos de trabalho para desenvolvedores, permitindo que documentos grandes sejam ingeridos diretamente sem dividi-los em partes menores. Além disso, eles podem fornecer centenas de exemplos em um único prompt, permitindo um aprendizado aprimorado no contexto sem a necessidade de ajustes finos caros. Modelos de longo contexto podem analisar extensas transcrições de conversas de vários canais para criar resumos coesos para agentes de atendimento ao cliente.
Experimente o Compute hoje
Ligado Computar, você pode lançar um vLLM servidor de inferência e defina seu próprio comprimento de contexto e limites de saída. Comece com um modelo 7B, transmita tokens e meça TTFT/TPS antes de decidir abrir a janela.
Pense em tokens. Cada token de prompt que você adiciona é uma memória que deve estar no cache KV. Cada token de saída extra leva tempo para ser gerado.
Uma tabela pode ser usada para resumir as métricas de custo ou desempenho de ambas as abordagens.
Uma verificação rápida: se sua solicitação média aumentar em milhares de tokens para incluir texto fonte bruto, espere maior uso de memória da GPU, maior pré-preenchimento e mais gastos. Se apenas alguns parágrafos importam, a recuperação mantém as instruções rígidas e previsíveis.
A escolha certa depende de suas solicitações, de sua meta de latência, de seu orçamento e dos custos financeiros associados a cada abordagem. A estrutura RAG original foi apresentada em um artigo de 2020 da Meta, que influenciou muito os fluxos de trabalho atuais do RAG e o desenvolvimento contínuo de modelos de linguagem de contexto longo. O RAG integra os dados mais atuais ao processo de tomada de decisão dos modelos de linguagem, garantindo que as informações usadas sejam as mais recentes disponíveis. O RAG extrai texto relevante de bancos de dados, documentos enviados ou fontes da Web para melhorar as respostas, o que ajuda a reduzir erros ou alucinações nas saídas de IA. Por outro lado, os LLMs de longo contexto podem analisar documentos legais inteiros em uma única passagem, permitindo um resumo e uma avaliação de riscos mais completos. Contextos maiores tornam os LLMs de contexto longo capazes de capturar informações mais relevantes para tarefas de controle de qualidade.
O RAG também pode incorporar dados estruturados e novos dados no prompt aumentado, melhorando a relevância e a estrutura das respostas. Ao processar longos documentos de ensaios clínicos, os LLMs de longo contexto ajudam os profissionais de saúde a sintetizar informações e extrair as principais descobertas. Além disso, eles podem ingerir e analisar grandes volumes de dados e relatórios financeiros para identificar anomalias e padrões fraudulentos.
O contexto longo é simples de configurar. A recuperação é sustentável em grande escala. Execute os dois com as mesmas solicitações, meça TTFT e tokens por solicitação e deixe os números decidirem. Ambas as abordagens visam fornecer respostas precisas e responder de forma eficaz às necessidades do usuário, com o objetivo final de responder às perguntas usando as melhores informações disponíveis. No entanto, o RAG continua sendo a solução mais acessível e rápida em comparação com janelas de contexto longo.
Experimente o Compute hoje
Lance um Endpoint vLLM na computação, escolha uma região próxima aos usuários e ajuste os limites de contexto e saída. Por padrão, mantenha as instruções curtas e deixe a recuperação carregar o peso
Comece com 200 a 400 tokens e se sobreponha em 10 a 20%. Ajuste com seu próprio conjunto de avaliação. Ao ajustar o tamanho do bloco, considere também o número total de blocos de texto gerados, pois isso pode afetar o desempenho da recuperação. Pedaços menores melhoram a recuperação; pedaços maiores ajudam na coerência. Equilibre com um reclassificador.
Um LLM (Large Language Model) de contexto longo é um modelo de linguagem projetado para manipular e processar grandes quantidades de texto em sua janela de contexto, permitindo que ele considere informações abrangentes em uma única inferência. As principais diferenças entre LLMs de contexto longo e LLMs padrão incluem maior capacidade de resumir livros longos e analisar vastas bases de código.
Compare o custo e a latência para suas solicitações reais de aumento de tráfego. Avalie o desempenho médio de abordagens de contexto longo e RAG em seus conjuntos de dados para determinar onde sua eficácia se alinha. O ponto em que as horas de TTFT e GPU de contexto longo passam pelo RAG com a mesma precisão é seu sinal para alternar.
Somente se os tamanhos da janela e do lote não couberem em um cartão com espaço livre. Experimente primeiro a quantização ou modelos menores.
Se o tráfego estiver fraco e o texto for pequeno, um contexto mais longo pode ser mais simples. Mantenha as tampas fechadas e deixe fluir.
Um LLM (Large Language Model) de contexto longo é um modelo de linguagem projetado para manipular e processar grandes quantidades de texto em sua janela de contexto, permitindo que ele considere informações abrangentes em uma única inferência.
O RAG (Retrieval-Augmented Generation) recupera documentos externos relevantes para aumentar dinamicamente a entrada do modelo, enquanto os LLMs de contexto longo dependem de uma janela de contexto fixa muito grande para processar todas as informações diretamente. O RAG continua manipulando dados com eficiência, incorporando ferramentas complexas, como reescrita de consultas e pesquisas vetoriais otimizadas.
Refere-se ao número máximo de tokens que o modelo pode processar em um único prompt de entrada, incluindo a entrada do usuário e qualquer contexto adicional.
Os limites de contexto existem devido a restrições computacionais e requisitos de memória para processar grandes sequências de tokens de forma eficiente.
O custo do TOKEN se refere aos recursos computacionais e ao tempo necessários para processar ou gerar cada token na saída ou entrada de um modelo.
O preço do TOKEN é o custo monetário associado ao processamento ou geração de tokens, geralmente cobrado pelos provedores de serviços de IA.
Ele representa o uso de recursos, como tempo e memória da GPU, necessários para lidar com cada token durante a inferência do modelo.
Ele indica quanto um usuário paga por token processado ou gerado em um serviço de IA.
A latência é o atraso entre o envio de uma solicitação ao modelo e o recebimento da resposta.
Uma boa velocidade de latência depende do aplicativo, mas geralmente varia de milissegundos a alguns segundos para sistemas de IA voltados para o usuário.
Na medicina, a latência se refere ao tempo entre a exposição a um estímulo e a resposta ou o início dos sintomas.
A latência é o atraso inicial antes do início da transferência de dados, enquanto o atraso pode se referir a qualquer atraso ou tempo de espera durante o processo.
O cache de prompts armazena solicitações processadas anteriormente ou partes de solicitações para acelerar a geração de respostas para entradas repetidas ou similares.
É um mecanismo para reutilizar partes do estado interno do modelo para solicitações idênticas ou similares para reduzir a computação e a latência.
O cache KV (cache de valores-chave) é uma forma de cache imediato que armazena estados de atenção intermediários para evitar o recálculo durante a geração do token.
O ajuste fino ajusta os pesos do modelo com base nos dados de treinamento, enquanto o cache imediato otimiza a velocidade de inferência reutilizando cálculos sem alterar o modelo. Os LLMs de longo contexto requerem recursos computacionais substanciais devido às suas grandes capacidades de processamento de contexto.
O RAG é um método em que um modelo recupera documentos externos relevantes ou partes de documentos para aumentar sua entrada antes de gerar uma resposta, melhorando a precisão e a fundamentação.
O ChatGPT em si não é inerentemente um sistema RAG, mas pode ser combinado com mecanismos de recuperação para funcionar como um só.
O RAG envolve a recuperação de documentos relevantes, como políticas da empresa, para responder à pergunta de um usuário com precisão, aumentando a solicitação do modelo com esses documentos. O desempenho dos sistemas RAG pode ser comparado usando conjuntos de dados como o Natural Questions, que fornecem uma maneira padronizada de avaliar o quão bem os modelos respondem a consultas de conhecimento geral.
O LLM (Large Language Model) é uma rede neural treinada para entender e gerar a linguagem humana. O RAG (Retrieval-Augmented Generation) aprimora os LLMs para integrar a recuperação de informações para melhorar as respostas.