Contexte long et RAG pour les applications réelles : coûts, latence et précision

Ce billet de blog explore l'impact des longs modèles de langage contextuel et des flux de travail RAG, en comparant leur efficacité et leur efficience pour améliorer la connaissance des modèles au moment de l'inférence. Nous examinons à la fois les modèles de langage à contexte long (également appelés modèles à contexte long) et les flux de travail de génération augmentée par extraction (RAG), qui impliquent un processus en deux étapes consistant à récupérer des informations pertinentes et à générer des réponses.

Modèles de langage à contexte long

Les LLM à contexte long peuvent gérer des fenêtres contextuelles pouvant atteindre un million de jetons, soit beaucoup plus que les modèles traditionnels, ce qui leur permet de traiter de nombreuses informations en une seule inférence. De plus, les LLM à contexte long améliorent la capacité à engager des conversations cohérentes et multi-tours avec les utilisateurs en référençant l'historique complet des conversations. Ils améliorent également la rétention du contexte lors d'interactions et de documents plus longs, ce qui permet de mieux comprendre les relations et les dépendances complexes. De plus, les LLM à contexte long aident à maintenir la cohérence des personnages et la cohérence de l'intrigue dans les longs récits d'œuvres de création.

Long Context et RAG Workflows

Il existe deux manières honnêtes de donner plus de connaissances aux modèles au moment de l'inférence : agrandir la fenêtre contextuelle avec des modèles contextuels longs ou récupérer le bon texte à la demande à l'aide des flux de travail RAG. Les fenêtres plus grandes sont faciles à raisonner, tandis que la récupération dans les flux de travail RAG est souvent moins coûteuse à grande échelle et peut réduire considérablement les coûts informatiques et financiers. L'utilisation de LLM à contexte long est plus facile que les systèmes RAG car ils nécessitent moins de composants et d'étapes de configuration. Les modèles à contexte long simplifient également les flux de travail pour les développeurs en permettant d'ingérer directement des documents volumineux sans les diviser en petits morceaux. En outre, ils peuvent fournir des centaines d'exemples en une seule invite, ce qui permet un apprentissage contextuel amélioré sans nécessiter de coûteux ajustements. Les modèles à contexte long peuvent analyser de nombreuses transcriptions de conversations provenant de plusieurs canaux afin de créer des résumés cohérents pour les agents du service client.

Essayez Compute dès aujourd'hui
Sur Calculer, vous pouvez lancer un VllM serveur d'inférence et définissez votre propre longueur de contexte et vos limites de sortie. Commencez par un modèle 7B, diffusez des jetons et mesurez le TTFT/TPS avant de décider d'appuyer sur la fenêtre.

Calcul des coûts auquel vous pouvez vous fier

Pensez en jetons. Chaque jeton d'invite que vous ajoutez correspond à de la mémoire qui doit résider dans le KV‑Cache. La génération de chaque jeton de sortie supplémentaire prend du temps.

Coût du contexte long. Barèmes de coûts avec une durée rapide pour chaque appel. Le serveur contient plus de blocs de cache et passe plus de temps au préremplissage.
Coût RAG. Vous payez pour la récupération une fois par demande (recherche vectorielle, reclassement), ce qui peut impliquer de rechercher des informations pertinentes dans une base de données vectorielles ou dans d'autres bases de données. Les instructions restent courtes et stables.

Un tableau peut être utilisé pour résumer les mesures de coût ou de performance pour les deux approches.

Une vérification rapide : si votre invite augmente en moyenne de milliers de jetons pour inclure du texte source brut, attendez-vous à une utilisation de la mémoire GPU plus élevée, à un préremplissage plus long et à des dépenses supplémentaires. Si seuls quelques paragraphes comptent, la récupération permet de garder les instructions précises et prévisibles.

Latence et débit

Contexte long. Le préremplissage ralentit à mesure que l'invite augmente, ce qui a un impact sur les performances du système. Le débit diminue lorsque le cache se remplit. Le délai jusqu'au premier jeton (TTFT) augmente en fonction de la charge, d'où l'importance d'évaluer à la fois la latence et le débit en tant que paramètres clés des performances. Des études montrent que des contextes extrêmement longs peuvent parfois dégrader les performances en raison d'une surcharge d'informations. Les modèles à contexte long ont également du mal à se concentrer sur des informations pertinentes, ce qui entraîne une qualité de réponse médiocre.
CHIFFON. La récupération ajoute un petit saut, mais le décodage démarre plus tôt car l'invite est courte. Avec une bonne mise en cache, le TTFT reste stable à mesure que le trafic augmente. Lorsque vous évaluez les performances moyennes de différentes charges, RAG maintient souvent des performances plus cohérentes par rapport aux approches contextuelles longues.

Choisir la bonne approche

Le bon choix dépend de vos instructions, de votre objectif de latence, de votre budget et des coûts financiers associés à chaque approche. Le framework RAG original a été présenté dans un article de 2020 de Meta, qui a grandement influencé les flux de travail RAG actuels et le développement continu de modèles de langage contextuel longs. RAG intègre les données les plus récentes dans le processus de prise de décision des modèles linguistiques, en veillant à ce que les informations utilisées soient les plus récentes disponibles. RAG extrait le texte pertinent des bases de données, des documents téléchargés ou des sources Web pour améliorer les réponses, ce qui contribue à réduire les erreurs ou les hallucinations dans les résultats de l'IA. D'autre part, les LLM à contexte long peuvent analyser des documents juridiques entiers en une seule passe, ce qui permet une synthèse et une évaluation des risques plus approfondies. Des contextes plus longs permettent aux LLM à long contexte de capturer des informations plus pertinentes pour les tâches d'assurance qualité.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

Quand le contexte long l'emporte

Recherches courtes et rares. De longues instructions occasionnelles où la simplicité l'emporte sur un nouveau système et où les limites de longueur et de coût du contexte ne sont pas préoccupantes.
Peu de documents, contrôle strict. Vous êtes propriétaire du texte et vous le nettoyez, et la fenêtre reste dans les limites du modèle, ce qui permet à celui-ci de rester concentré sur les informations clés.
Prototypage. Vous avez besoin de réponses aujourd'hui et vous pouvez accepter des coûts plus élevés pendant que vous apprenez, même si les limites du modèle en termes de gestion de contextes très longs ou de maintien de la focalisation peuvent affecter la fiabilité.

Quand RAG gagne

De grands corpus. De nombreux documents dont seuls quelques extraits sont pertinents. RAG extrait les informations pertinentes et les documents récupérés à partir de sources externes telles que des bases de données vectorielles, en veillant à ce que seules les données les plus pertinentes soient utilisées pour répondre à chaque requête de l'utilisateur.
Requêtes fréquentes. Vous bénéficiez de la mise en cache des segments récupérés et des invites du système. Les systèmes RAG utilisent un modèle d'intégration pour récupérer les données et les informations pertinentes pour chaque requête ou question de l'utilisateur, améliorant ainsi l'efficacité et la précision des réponses aux requêtes des utilisateurs.
Besoins en matière de conformité Vous pouvez enregistrer les informations récupérées ou les informations clés qui ont étayé chaque réponse, afin d'assurer la traçabilité et la transparence. RAG est plus facile à déboguer et à évaluer car il permet de suivre un fil de discussion d'une question à l'autre.

RAG peut également intégrer des données structurées et de nouvelles données dans l'invite augmentée, améliorant ainsi la pertinence et la structure des réponses. En traitant de longs documents d'essais cliniques, les LLM à long contexte aident les professionnels de santé à synthétiser les informations et à extraire les principaux résultats. En outre, ils peuvent ingérer et analyser de grands volumes de données et de rapports financiers afin d'identifier les anomalies et les modèles frauduleux.

Des modèles hybrides qui fonctionnent

Résumés des rubriques + récupération. Conservez un préambule court et fixe avec des définitions et des politiques. Divisez le document pertinent en morceaux de texte et récupérez des exemples par demande de récupération.
Instructions en deux étapes. Tout d'abord, demandez un plan basé sur les notes récupérées en utilisant les mêmes données pour la planification et la réponse finale. Ensuite, écrivez la réponse finale en majuscules strictes sur les jetons.
La mémoire se déforme. Conservez les derniers tours. Stockez le reste de la conversation en dehors de l'invite et récupérez-le à la demande. RAG exige de joindre des documents externes et d'utiliser les mêmes données pour toutes ses tâches.

Étapes d'évaluation simples

Définissez les tâches. Choisissez entre 20 et 50 instructions réelles et les résultats attendus.
Mesurez les chiffres. Suivez le TTFT, les jetons par seconde et la précision pour les deux stratégies. Des mesures telles que le TTFT et la précision doivent être calculées pour évaluer les performances du système. Pensez à utiliser un tableau pour résumer les résultats calculés afin de faciliter la comparaison.
Test d'effort. Exécutez à une simultanéité croissante jusqu'à ce que TTFT p95 atteigne votre objectif.
Vérification du budget. Comparez le coût pour 1 000 demandes en utilisant le nombre réel de jetons.
Lisibilité. Examinez un échantillon de réponses pour en vérifier la fidélité et l'utilisation des sources. Les LLM fonctionnent mieux lorsque les informations clés se trouvent au début ou à la fin de la saisie.

Liste de contrôle rapide

Faites en sorte que les invites soient courtes par défaut et optimisez l'invite llm pour plus d'efficacité.
Utilisez la fonction de récupération pour le texte volumineux ou qui change fréquemment.
Limitez max_tokens et appliquez la longueur de sortie.
Intégration du cache et résultats de récupération, y compris le stockage de représentations numériques pour une récupération plus rapide, en toute sécurité.
Consignez le nombre de jetons, TTFT, TPS.
Réévaluez en cas de modification des habitudes d'utilisation.

Dernières pensées

Le contexte long est simple à configurer. La récupération est durable à grande échelle. Exécutez les deux avec les mêmes instructions, mesurez le TTFT et les jetons par demande, et laissez les chiffres décider. Les deux approches visent à fournir des réponses précises et à répondre efficacement aux besoins des utilisateurs, dans le but ultime de répondre aux questions en utilisant les meilleures informations disponibles. Cependant, RAG reste la solution la plus abordable et la plus rapide par rapport aux fenêtres à contexte long.

Essayez Compute dès aujourd'hui

‍Lancez un Point de terminaison vLLM sur ordinateur, choisissez une région proche des utilisateurs et réglez le contexte et les limites de sortie. Gardez les instructions courtes par défaut et laissez la récupération prendre le dessus

FAQ

Quelle doit être la taille des morceaux dans RAG ?

Commencez avec 200 à 400 jetons et superposez-les de 10 à 20 %. Réglez avec votre propre ensemble d'évaluation. Lorsque vous ajustez la taille des blocs, tenez également compte du nombre total de blocs de texte générés, car cela peut avoir un impact sur les performances de récupération. Les petits morceaux améliorent la mémorisation ; les gros morceaux favorisent la cohérence. Équilibre avec reclassement.

Un contexte long réduit-il les hallucinations ?

Un LLM (Large Language Model) à contexte long est un modèle de langage conçu pour gérer et traiter de très grandes quantités de texte dans sa fenêtre contextuelle, ce qui lui permet de prendre en compte de nombreuses informations en une seule inférence. Les principales différences entre les LLM à contexte long et les LLM standard incluent une plus grande capacité à résumer de longs livres et à analyser de vastes bases de code.

Comment puis-je trouver le seuil de rentabilité ?

Comparez les coûts et la latence pour obtenir des informations réelles sur la hausse du trafic. Évaluez les performances moyennes des approches contextuelles à long terme et RAG dans vos ensembles de données afin de déterminer leur efficacité. Le moment où les heures TTFT et GPU à contexte long passent à RAG avec la même précision est votre signal de commutation.

Ai-je besoin de plusieurs processeurs graphiques pour les longs contextes ?

Uniquement si les tailles de fenêtre et de lot ne correspondent pas à une seule carte avec marge de manœuvre. Essayez d'abord la quantification ou des modèles plus petits.

Qu'en est-il des très petites applications ?

Si le trafic est faible et que le texte est petit, un contexte plus long peut être plus simple. Gardez les bouchons bien serrés et diffusez.

Qu'est-ce que le LLM à contexte long ?

Quelle est la différence entre RAG et LLM à contexte long ?

Le RAG (Retrieval-Augmented Generation) extrait les documents externes pertinents pour augmenter dynamiquement les entrées du modèle, tandis que les LLM à contexte long s'appuient sur une très grande fenêtre de contexte fixe pour traiter directement toutes les informations. RAG continue de gérer les données de manière efficace, en incorporant des outils complexes tels que la réécriture des requêtes et l'optimisation des recherches vectorielles.

Quelle est la durée du contexte d'un LLM ?

Il fait référence au nombre maximum de jetons que le modèle peut traiter dans une seule invite de saisie, y compris la saisie par l'utilisateur et tout contexte supplémentaire.

Pourquoi les LLM ont-ils des limites de contexte ?

Des limites de contexte existent en raison des contraintes de calcul et des exigences de mémoire lors du traitement efficace de grandes séquences de jetons.

Combien coûte un TOKEN ?

Le coût TOKEN fait référence aux ressources de calcul et au temps nécessaires pour traiter ou générer chaque jeton dans la sortie ou l'entrée d'un modèle.

Quel est le prix du TOKEN ?

Le prix du TOKEN est le coût monétaire associé au traitement ou à la génération de jetons, souvent facturé par les fournisseurs de services d'IA.

Quel est le coût d'un TOKEN en IA ?

Il représente l'utilisation des ressources, telles que le temps GPU et la mémoire, nécessaires pour gérer chaque jeton lors de l'inférence du modèle.

Que signifie un prix TOKEN ?

Il indique combien un utilisateur paie par jeton traité ou généré dans un service d'IA.

Qu'entendez-vous par latence ?

La latence est le délai entre l'envoi d'une demande au modèle et la réception de la réponse.

Qu'est-ce qu'une bonne vitesse de latence ?

Une bonne vitesse de latence dépend de l'application, mais elle varie généralement de quelques millisecondes à quelques secondes pour les systèmes d'IA orientés vers l'utilisateur.

Qu'est-ce que la latence en termes médicaux ?

En médecine, la latence fait référence au temps qui s'écoule entre l'exposition à un stimulus et la réponse ou l'apparition des symptômes.

Qu'est-ce que la latence par rapport au retard ?

La latence est le délai initial avant le début du transfert de données, tandis que le délai peut faire référence à un décalage ou à un temps d'attente quelconque au cours du processus.

Comment fonctionne la mise en cache rapide ?

La mise en cache des invites stocke les invites précédemment traitées ou des parties de celles-ci afin d'accélérer la génération de réponses pour des entrées répétées ou similaires.

Qu'est-ce que la mise en cache rapide dans OpenAI ?

Il s'agit d'un mécanisme permettant de réutiliser certaines parties de l'état interne du modèle pour des instructions identiques ou similaires afin de réduire les calculs et la latence.

La mise en cache rapide est-elle identique à la mise en cache KV ?

La mise en cache KV (mise en cache clé-valeur) est une forme de mise en cache rapide qui stocke les états d'attention intermédiaires afin d'éviter tout recalcul lors de la génération de jetons.

Quelle est la différence entre un réglage précis et une mise en cache rapide ?

Le réglage fin permet d'ajuster les poids du modèle en fonction des données d'entraînement, tandis que la mise en cache rapide optimise la vitesse d'inférence en réutilisant les calculs sans modifier le modèle. Les LLM à contexte long nécessitent des ressources de calcul importantes en raison de leurs grandes capacités de traitement du contexte.

Qu'est-ce que la génération augmentée par extraction ?

Le RAG est une méthode dans laquelle un modèle extrait des documents externes pertinents ou des segments de document pour augmenter sa saisie avant de générer une réponse, améliorant ainsi la précision et la base.

Est-ce que ChatGPT est un RAG ?

ChatGPT lui-même n'est pas intrinsèquement un système RAG mais peut être combiné à des mécanismes de récupération pour fonctionner comme un seul système.

Qu'est-ce que RAG par exemple ?

Le RAG consiste à récupérer des documents pertinents, tels que les politiques de l'entreprise, pour répondre avec précision à la question d'un utilisateur en ajoutant ces documents à l'invite du modèle. Les performances des systèmes RAG peuvent être comparées à l'aide d'ensembles de données tels que Natural Questions, qui fournissent un moyen standardisé d'évaluer dans quelle mesure les modèles répondent aux requêtes de connaissances générales.

Qu'est-ce que LLM et RAG ?

Le LLM (Large Language Model) est un réseau neuronal entraîné pour comprendre et générer le langage humain. Le RAG (Retrieval-Augmented Generation) améliore les LLM en intégrant la récupération d'informations pour améliorer les réponses.

‍

Your next workload belongs on Hivenet.

Pick one AI, compute, or storage workload and see the difference for yourself. Spin it up in minutes, or let our team map your fastest path to production.

Start now Contact sales

Check pricing Start building Talk through a workload

La sécurité est renforcée par un regard extérieur

Pourquoi Hivenet a lancé un programme de primes aux bogues et de divulgation responsable, et comment la recherche externe aide à protéger Store, Compute, les utilisateurs et l'infrastructure.