
Ce billet de blog explore l'impact des longs modèles de langage contextuel et des flux de travail RAG, en comparant leur efficacité et leur efficience pour améliorer la connaissance des modèles au moment de l'inférence. Nous examinons à la fois les modèles de langage à contexte long (également appelés modèles à contexte long) et les flux de travail de génération augmentée par extraction (RAG), qui impliquent un processus en deux étapes consistant à récupérer des informations pertinentes et à générer des réponses.
Les LLM à contexte long peuvent gérer des fenêtres contextuelles pouvant atteindre un million de jetons, soit beaucoup plus que les modèles traditionnels, ce qui leur permet de traiter de nombreuses informations en une seule inférence. De plus, les LLM à contexte long améliorent la capacité à engager des conversations cohérentes et multi-tours avec les utilisateurs en référençant l'historique complet des conversations. Ils améliorent également la rétention du contexte lors d'interactions et de documents plus longs, ce qui permet de mieux comprendre les relations et les dépendances complexes. De plus, les LLM à contexte long aident à maintenir la cohérence des personnages et la cohérence de l'intrigue dans les longs récits d'œuvres de création.
Il existe deux manières honnêtes de donner plus de connaissances aux modèles au moment de l'inférence : agrandir la fenêtre contextuelle avec des modèles contextuels longs ou récupérer le bon texte à la demande à l'aide des flux de travail RAG. Les fenêtres plus grandes sont faciles à raisonner, tandis que la récupération dans les flux de travail RAG est souvent moins coûteuse à grande échelle et peut réduire considérablement les coûts informatiques et financiers. L'utilisation de LLM à contexte long est plus facile que les systèmes RAG car ils nécessitent moins de composants et d'étapes de configuration. Les modèles à contexte long simplifient également les flux de travail pour les développeurs en permettant d'ingérer directement des documents volumineux sans les diviser en petits morceaux. En outre, ils peuvent fournir des centaines d'exemples en une seule invite, ce qui permet un apprentissage contextuel amélioré sans nécessiter de coûteux ajustements. Les modèles à contexte long peuvent analyser de nombreuses transcriptions de conversations provenant de plusieurs canaux afin de créer des résumés cohérents pour les agents du service client.
Essayez Compute dès aujourd'hui
Sur Calculer, vous pouvez lancer un VllM serveur d'inférence et définissez votre propre longueur de contexte et vos limites de sortie. Commencez par un modèle 7B, diffusez des jetons et mesurez le TTFT/TPS avant de décider d'appuyer sur la fenêtre.
Pensez en jetons. Chaque jeton d'invite que vous ajoutez correspond à de la mémoire qui doit résider dans le KV‑Cache. La génération de chaque jeton de sortie supplémentaire prend du temps.
Un tableau peut être utilisé pour résumer les mesures de coût ou de performance pour les deux approches.
Une vérification rapide : si votre invite augmente en moyenne de milliers de jetons pour inclure du texte source brut, attendez-vous à une utilisation de la mémoire GPU plus élevée, à un préremplissage plus long et à des dépenses supplémentaires. Si seuls quelques paragraphes comptent, la récupération permet de garder les instructions précises et prévisibles.
Le bon choix dépend de vos instructions, de votre objectif de latence, de votre budget et des coûts financiers associés à chaque approche. Le framework RAG original a été présenté dans un article de 2020 de Meta, qui a grandement influencé les flux de travail RAG actuels et le développement continu de modèles de langage contextuel longs. RAG intègre les données les plus récentes dans le processus de prise de décision des modèles linguistiques, en veillant à ce que les informations utilisées soient les plus récentes disponibles. RAG extrait le texte pertinent des bases de données, des documents téléchargés ou des sources Web pour améliorer les réponses, ce qui contribue à réduire les erreurs ou les hallucinations dans les résultats de l'IA. D'autre part, les LLM à contexte long peuvent analyser des documents juridiques entiers en une seule passe, ce qui permet une synthèse et une évaluation des risques plus approfondies. Des contextes plus longs permettent aux LLM à long contexte de capturer des informations plus pertinentes pour les tâches d'assurance qualité.
RAG peut également intégrer des données structurées et de nouvelles données dans l'invite augmentée, améliorant ainsi la pertinence et la structure des réponses. En traitant de longs documents d'essais cliniques, les LLM à long contexte aident les professionnels de santé à synthétiser les informations et à extraire les principaux résultats. En outre, ils peuvent ingérer et analyser de grands volumes de données et de rapports financiers afin d'identifier les anomalies et les modèles frauduleux.
Le contexte long est simple à configurer. La récupération est durable à grande échelle. Exécutez les deux avec les mêmes instructions, mesurez le TTFT et les jetons par demande, et laissez les chiffres décider. Les deux approches visent à fournir des réponses précises et à répondre efficacement aux besoins des utilisateurs, dans le but ultime de répondre aux questions en utilisant les meilleures informations disponibles. Cependant, RAG reste la solution la plus abordable et la plus rapide par rapport aux fenêtres à contexte long.
Essayez Compute dès aujourd'hui
Lancez un Point de terminaison vLLM sur ordinateur, choisissez une région proche des utilisateurs et réglez le contexte et les limites de sortie. Gardez les instructions courtes par défaut et laissez la récupération prendre le dessus
Commencez avec 200 à 400 jetons et superposez-les de 10 à 20 %. Réglez avec votre propre ensemble d'évaluation. Lorsque vous ajustez la taille des blocs, tenez également compte du nombre total de blocs de texte générés, car cela peut avoir un impact sur les performances de récupération. Les petits morceaux améliorent la mémorisation ; les gros morceaux favorisent la cohérence. Équilibre avec reclassement.
Un LLM (Large Language Model) à contexte long est un modèle de langage conçu pour gérer et traiter de très grandes quantités de texte dans sa fenêtre contextuelle, ce qui lui permet de prendre en compte de nombreuses informations en une seule inférence. Les principales différences entre les LLM à contexte long et les LLM standard incluent une plus grande capacité à résumer de longs livres et à analyser de vastes bases de code.
Comparez les coûts et la latence pour obtenir des informations réelles sur la hausse du trafic. Évaluez les performances moyennes des approches contextuelles à long terme et RAG dans vos ensembles de données afin de déterminer leur efficacité. Le moment où les heures TTFT et GPU à contexte long passent à RAG avec la même précision est votre signal de commutation.
Uniquement si les tailles de fenêtre et de lot ne correspondent pas à une seule carte avec marge de manœuvre. Essayez d'abord la quantification ou des modèles plus petits.
Si le trafic est faible et que le texte est petit, un contexte plus long peut être plus simple. Gardez les bouchons bien serrés et diffusez.
Un LLM (Large Language Model) à contexte long est un modèle de langage conçu pour gérer et traiter de très grandes quantités de texte dans sa fenêtre contextuelle, ce qui lui permet de prendre en compte de nombreuses informations en une seule inférence.
Le RAG (Retrieval-Augmented Generation) extrait les documents externes pertinents pour augmenter dynamiquement les entrées du modèle, tandis que les LLM à contexte long s'appuient sur une très grande fenêtre de contexte fixe pour traiter directement toutes les informations. RAG continue de gérer les données de manière efficace, en incorporant des outils complexes tels que la réécriture des requêtes et l'optimisation des recherches vectorielles.
Il fait référence au nombre maximum de jetons que le modèle peut traiter dans une seule invite de saisie, y compris la saisie par l'utilisateur et tout contexte supplémentaire.
Des limites de contexte existent en raison des contraintes de calcul et des exigences de mémoire lors du traitement efficace de grandes séquences de jetons.
Le coût TOKEN fait référence aux ressources de calcul et au temps nécessaires pour traiter ou générer chaque jeton dans la sortie ou l'entrée d'un modèle.
Le prix du TOKEN est le coût monétaire associé au traitement ou à la génération de jetons, souvent facturé par les fournisseurs de services d'IA.
Il représente l'utilisation des ressources, telles que le temps GPU et la mémoire, nécessaires pour gérer chaque jeton lors de l'inférence du modèle.
Il indique combien un utilisateur paie par jeton traité ou généré dans un service d'IA.
La latence est le délai entre l'envoi d'une demande au modèle et la réception de la réponse.
Une bonne vitesse de latence dépend de l'application, mais elle varie généralement de quelques millisecondes à quelques secondes pour les systèmes d'IA orientés vers l'utilisateur.
En médecine, la latence fait référence au temps qui s'écoule entre l'exposition à un stimulus et la réponse ou l'apparition des symptômes.
La latence est le délai initial avant le début du transfert de données, tandis que le délai peut faire référence à un décalage ou à un temps d'attente quelconque au cours du processus.
La mise en cache des invites stocke les invites précédemment traitées ou des parties de celles-ci afin d'accélérer la génération de réponses pour des entrées répétées ou similaires.
Il s'agit d'un mécanisme permettant de réutiliser certaines parties de l'état interne du modèle pour des instructions identiques ou similaires afin de réduire les calculs et la latence.
La mise en cache KV (mise en cache clé-valeur) est une forme de mise en cache rapide qui stocke les états d'attention intermédiaires afin d'éviter tout recalcul lors de la génération de jetons.
Le réglage fin permet d'ajuster les poids du modèle en fonction des données d'entraînement, tandis que la mise en cache rapide optimise la vitesse d'inférence en réutilisant les calculs sans modifier le modèle. Les LLM à contexte long nécessitent des ressources de calcul importantes en raison de leurs grandes capacités de traitement du contexte.
Le RAG est une méthode dans laquelle un modèle extrait des documents externes pertinents ou des segments de document pour augmenter sa saisie avant de générer une réponse, améliorant ainsi la précision et la base.
ChatGPT lui-même n'est pas intrinsèquement un système RAG mais peut être combiné à des mécanismes de récupération pour fonctionner comme un seul système.
Le RAG consiste à récupérer des documents pertinents, tels que les politiques de l'entreprise, pour répondre avec précision à la question d'un utilisateur en ajoutant ces documents à l'invite du modèle. Les performances des systèmes RAG peuvent être comparées à l'aide d'ensembles de données tels que Natural Questions, qui fournissent un moyen standardisé d'évaluer dans quelle mesure les modèles répondent aux requêtes de connaissances générales.
Le LLM (Large Language Model) est un réseau neuronal entraîné pour comprendre et générer le langage humain. Le RAG (Retrieval-Augmented Generation) améliore les LLM en intégrant la récupération d'informations pour améliorer les réponses.