Cree una canalización de RAG que se mantenga rápida a escala

El RAG es un problema de velocidad disfrazado de problema de relevancia. Si la recuperación es lenta o ruidosa, la generación se detiene y los costos aumentan. La generación de texto en los sistemas RAG se basa en una recuperación rápida y precisa para producir resultados de alta calidad. El tiempo de respuesta de principio a fin es un indicador de rendimiento clave para los sistemas RAG, y se ve afectado por el tiempo de recuperación y la velocidad de inferencia. RAG puede mejorar significativamente el rendimiento de los chatbots al proporcionar respuestas precisas y oportunas en función del contexto.

La solución es simple: fragmentos más pequeños, consultas más inteligentes, un cambio de clasificación que se gana el sustento y almacena en caché lo que importa. En el proceso RAG, se utilizan modelos de incrustación, que convierten tanto las consultas de los usuarios como los documentos en vectores numéricos (también denominados modelo de incrustación). Este proceso crea una representación vectorial para cada entrada, lo que permite la búsqueda por similitud. La indexación eficiente y la recuperación rápida se logran mediante el uso de un vector de consulta derivado de la entrada del usuario para buscar en la base de datos vectorial.

Prueba Compute hoy

Empareje su retriever con un dedicado VLLM punto final activado Calcular. Elige una región cercana a los usuarios, transmite los tokens y limita las salidas. Mide el TTFT/TPS mientras repites las segmentaciones y los reclasificaciones.

Introducción a RAG

La generación aumentada de recuperación (o RAG) cambia la forma en que la IA responde a tus preguntas. Conecta modelos lingüísticos de gran tamaño con bases de datos rápidas que almacenan la información en forma de números. Esto es lo que ocurre: cuando preguntas algo, RAG no se basa únicamente en lo que la IA ha aprendido durante el entrenamiento. Busca en los datos actuales para encontrar información relevante y, a continuación, utiliza ambas fuentes para darte una respuesta mejor.

El proceso funciona en tres pasos claros. En primer lugar, los documentos se limpian y se convierten en patrones numéricos que las computadoras pueden buscar rápidamente. Luego, cuando hace una pregunta, el sistema busca entre estos patrones para encontrar la información más relevante. Por último, la IA toma lo que ha encontrado y lo combina con su conocimiento existente para crear tu respuesta. Este enfoque significa que obtiene respuestas que se mantienen actualizadas con nueva información. Sus preguntas obtienen respuestas que realmente ayudan, incluso cuando se trata de temas complejos o de grandes cantidades de datos.

Indexación: fragmentación, incrustaciones y bases de datos vectoriales que ayudan, no perjudican

Tamaño del trozo. Empezar en 200 a 400 fichas con Superposición del 10 al 20%. Los fragmentos más pequeños aumentan la memoria; los fragmentos más grandes aumentan la coherencia. Sintonízate con tu conjunto de evaluación. La fragmentación consiste en agrupar la información en unidades manejables, lo que aumenta la capacidad de la memoria y reduce el deterioro o las interferencias, lo que mejora la recuperación y la eficiencia de la memoria. Se ha demostrado que la fragmentación mejora la recuperación de la memoria a corto plazo y puede ayudar a los programas de entrenamiento de la memoria. Los pacientes con la enfermedad de Alzheimer pueden beneficiarse de la fragmentación para mejorar el rendimiento de su memoria funcional verbal. El tamaño óptimo de los fragmentos suele oscilar entre tres y cuatro elementos para mejorar la eficiencia del procesamiento de la memoria. Además, la experiencia en un campo puede permitir a las personas formar fragmentos más grandes, lo que mejora la eficiencia de la recuperación de la memoria.

Límites. Divida los encabezados, viñetas y párrafos para mantener las ideas intactas. Evite el recuento arbitrario de caracteres.

Normalizar. Coloque minúsculas, elimine el texto repetitivo y contraiga los espacios en blanco; mantenga el formato de números y códigos.

Metadatos. Almacene las etiquetas de fuente, sección, idioma, marca de tiempo y acceso para filtrar y auditar.

Modelo de incrustaciones. Elige uno que gestione tus idiomas y tu dominio. Pon a prueba las distancias entre cosenos en tus propias parejas; no te fíes ciegamente de las diferencias en la tabla clasificatoria. El modelo de incrustación mapea el texto en un espacio vectorial de alta dimensión, lo que permite la búsqueda de similitudes basada en representaciones vectoriales.

Planificación de consultas: recupere menos, recupere mejor

Recupere menos, recupere mejor. Los algoritmos de búsqueda avanzada, incluida la búsqueda semántica, se utilizan para mejorar la precisión de la recuperación.

Búsqueda híbrida. Combinar BM25 (palabra clave) con vector resultados; combinar mediante un rango ponderado simple. La búsqueda híbrida combina algoritmos de búsqueda tradicionales y semánticos para procesar la consulta del usuario y la consulta dada de manera más eficaz, lo que mejora la recuperación de las piezas relevantes.
Filtra primero. Aplica filtros de metadatos antes de la búsqueda vectorial para reducir los conjuntos de candidatos.
Soy pequeño, muy fuerte. Empieza con k=20—50 candidatos e introduce a los 10—20 mejores a través de un reordenador de codificación cruzada. Los métodos de reclasificación ayudan a seleccionar los fragmentos y piezas más relevantes para que el modelo los procese.
Diversidad. Elimine la duplicación de fragmentos casi idénticos; prefiera uno por sección para evitar el eco.
Consultas multisalto. Si las preguntas abarcan documentos, recupérelas en dos pasos: planificar → recopilar → responder.

Un cambio de clasificación que devenga su coste

Los codificadores cruzados mejoran la precisión. Utilízalos con moderación: los codificadores cruzados utilizan puntuaciones de similitud para clasificar los documentos recuperados y seleccionar los fragmentos más relevantes.

Solicitudes por lotes para tu reclasificador; pesan más que la recuperación.
Reduzca la confianza. Si las puntuaciones de cambio de clasificación caen por un precipicio, pasa menos partes al LLM.
Retrasos. Cuando se agote el tiempo de espera para volver a clasificarlo, vuelve al orden vectorial y registra un evento.
Medir ahorro de fichas: menos fragmentos irrelevantes → indicaciones más cortas → menor cantidad de TTFT.

Almacenamiento en caché de capas que realmente ayudan

Caché rápido. Canonicaliza las indicaciones (elimina los espacios en blanco, normaliza los números). Guarde en caché los mensajes cortos del sistema y las instrucciones comunes. El almacenamiento en caché de las solicitudes ayuda a garantizar que el modelo utilice de forma coherente el contexto proporcionado para generar respuestas.
Caché de recuperación. Tecla activada (hash de consulta + filtros); caduca al actualizar el documento.
Caché de respuestas. Solo para preguntas públicas deterministas. Agregue un TTL e invalide al cambiar la fuente.
Caché KV en el momento de la inferencia. Mantenga el contexto compacto para que el lote de decodificación siga siendo grande y los tokens/segundo se mantengan altos.

Presupuestos de latencia y SLO

División del presupuesto. Como regla general para el chat: recuperación + reproducción ≤ 200—300 ms, TTFT ≤ 800 ms p95 en la región. Cuando se trabaja con estos presupuestos de latencia, el proceso implica optimizar cada paso para reducir la latencia y gestionar los costos computacionales.
Paralelismo. Ejecute la recuperación y el preprocesamiento en paralelo cuando sea seguro. El procesamiento en paralelo es una técnica clave para reducir la latencia.
Enriquecimiento asincrónico. La primera respuesta puede ir seguida de pasos pesados (resumir, citar). Este enfoque ayuda a controlar los costos computacionales al aplazar las operaciones que consumen muchos recursos.

Métricas de evaluación: calidad y velocidad juntas

Cree un conjunto pequeño y versionado (50 a 150 consultas). El seguimiento de estas métricas es esencial para evaluar el rendimiento del sistema rag e identificar los factores clave que influyen en la calidad y la relevancia de los resultados de búsqueda. Seguimiento: la clasificación media recíproca (MRR) evalúa la calidad de la clasificación midiendo la antelación con la que aparece el primer documento relevante en la lista de clasificación. La ganancia acumulada con descuentos normalizados (ndCG) recompensa los resultados más relevantes que aparecen más arriba en la lista y mide la calidad de la clasificación en los sistemas RAG. La similitud semántica de las respuestas compara la respuesta generada con una respuesta de verdad básica mediante puntuaciones de similitud semántica. La precisión mide la proporción de documentos recuperados que son realmente relevantes para la consulta.

Recordar a @k y MRR para su recuperación.
Fidelidad: ¿la respuesta se limita a las fuentes?
Arraigamiento: ¿puedes citar los fragmentos exactos?
Latencia: TTFT y tiempo de respuesta completo por ruta.
Uso de tokens: tokens de aviso frente a tokens de salida por solicitud.
Tasa de alucinaciones: mide la frecuencia con la que el modelo genera información objetivamente incorrecta o sin fundamento. La fluidez evalúa qué tan natural y legible es la respuesta generada en los sistemas RAG. Recall mide la proporción de documentos relevantes que se recuperaron correctamente de toda la base de conocimientos.

Cambios de clasificación A/B y tamaños de fragmentos en la misma evaluación. Promociona solo cuando ambos calidad y latencia mejorar o mantenerse estable.

Operaciones: libros de ejecución y observabilidad

Métricas. Tasa de solicitud, TTFT, TPS, latencia de recuperación, latencia de cambio de clasificación, tokens de aviso, tokens de salida.
Registros. Identificadores, recuentos y referencias de fuentes; evite el texto sin procesar de forma predeterminada.
Incidentes. Profundice en las reconstrucciones de índices vectoriales, las interrupciones de los sistemas de cambio de clasificación y las estampidas de caché. Pueden surgir desafíos importantes durante la recuperación de datos y el procesamiento de la consulta original, especialmente durante interrupciones o actualizaciones a gran escala.
Cambios en los datos. En las actualizaciones masivas, vuelva a incrustarlos en lotes; conserve dos índices para los swaps azul/verde. Los marcos automatizados, como RAGAS y TruLens, proporcionan métricas automatizadas para evaluar la calidad de la recuperación y la generación en los sistemas RAG.

Probar Calcular hoy

Pon a la generación en un VLLM punto final en Francia o EAU. Mantenga las instrucciones breves, transmita los tokens y aplique los límites de salida. Tu retriever es rápido; tus usuarios ven los primeros tokens antes.

Beneficios y desafíos

Los sistemas RAG brindan beneficios reales que hacen que valga la pena considerarlos cuando se trabaja con grandes conjuntos de datos y preguntas complejas. Utilizan bases de datos vectoriales e indexación inteligente para reducir los tiempos de respuesta. Obtiene respuestas más rápidas y precisas a las preguntas de los usuarios. Esta velocidad le permite ejecutar modelos más grandes y gestionar más datos, lo que se traduce en respuestas más ricas y útiles. La capacidad de procesar preguntas difíciles y obtener información relevante de diferentes fuentes mejora la experiencia del usuario en general. También amplía lo que realmente pueden hacer sus aplicaciones de IA. Los sistemas RAG pueden mejorar significativamente la eficiencia operativa y los procesos de toma de decisiones en las organizaciones.

Sin embargo, escalar RAG no está exento de dolores de cabeza. Se necesitan datos de alta calidad para que el sistema funcione correctamente. La mala calidad de los datos perjudicará el rendimiento del sistema. El procesamiento de consultas se complica a medida que se agregan más documentos y los usuarios formulan preguntas más variadas. La seguridad se convierte en una verdadera preocupación cuando se integran fuentes de datos externas y se gestiona la recuperación a gran escala. Siempre existe el riesgo de que se produzcan filtraciones de datos. Aún se están definiendo las métricas de evaluación de los sistemas RAG, por lo que resulta difícil medir de forma coherente el rendimiento de la precisión de la recuperación y la clasificación por relevancia. La evaluación humana puede evaluar aspectos matizados, como la claridad de las respuestas y la experiencia del usuario, que las métricas automatizadas pueden pasar por alto. La ingeniería y el ajuste rápidos de los modelos para casos de uso específicos requieren investigación y experimentación continuas. Incluso con estos desafíos, las ventajas de RAG (velocidad, escalabilidad y relevancia) lo convierten en una herramienta poderosa para crear la próxima generación de aplicaciones de inteligencia artificial. Se espera que aproximadamente el 25% de las grandes empresas adopten la tecnología RAG para 2030.

Acelere la generación aumentada de recuperación con recuperación inteligente e indicaciones breves

Los fragmentos pequeños y limpios y la búsqueda híbrida aumentan la recuperación. El uso de un indicador aumentado puede mejorar aún más la capacidad del modelo para aprovechar las capacidades de la inteligencia artificial al procesar grandes cantidades de datos. Un reordenador de codificación cruzada reduce el ruido. Almacene en caché lo que se repite, filtre antes y transfiera menos fragmentos de mejor calidad al modelo. Coloque la generación cerca de los usuarios, transmita y limite las salidas. La transformación de consultas puede ser necesaria para consultas complejas o conversacionales a fin de optimizar los resultados de búsqueda en los sistemas RAG. Mida el TTFT, la latencia de recuperación y el recuento de tokens a la vez y deje que esos números guíen los cambios. Probar diferentes configuraciones de RAG con subconjuntos de usuarios puede medir el impacto real en el compromiso y la satisfacción.

Últimos pensamientos

La generación aumentada de recuperación (RAG) mejora el funcionamiento de los modelos lingüísticos de gran tamaño. Le brinda respuestas más precisas y relevantes a sus preguntas. RAG combina bases de datos vectoriales con modelos generativos para procesar las consultas de manera eficiente y extraer información nueva y de alta calidad de grandes conjuntos de datos. Se enfrentará a algunos desafíos: problemas de calidad de los datos, procesamiento complejo de consultas y cambios en las métricas de evaluación. Sin embargo, los beneficios hacen que valga la pena: los usuarios confían más en los resultados, el sistema se adapta bien y gestiona aplicaciones sofisticadas de inteligencia artificial.

La investigación sobre la generación aumentada de recuperación sigue avanzando. Los científicos de datos y los profesionales de la IA pueden utilizar estas mejoras para crear sistemas de IA mejores y más confiables. Céntrese en la preparación sólida de los datos, la recuperación eficiente y las mejoras continuas del modelo. Este enfoque ayuda a las organizaciones a aprovechar al máximo RAG y a ofrecer información valiosa a los usuarios. El procesamiento del lenguaje natural cambiará gracias a soluciones como RAG. Conectan el conocimiento estático con la información dinámica del mundo real. Esto transforma la forma en que interactuamos con los modelos y las aplicaciones de IA. La integración de RAG con capas semánticas mejora la accesibilidad y la coherencia de los datos. RAG es una forma rentable de mejorar las capacidades de inteligencia artificial al hacer que los sistemas de inteligencia artificial sean más confiables y adaptables.

PREGUNTAS MÁS FRECUENTES

¿Qué tamaño de fragmento funciona mejor para RAG?

Empieza de nuevo 200 a 400 fichas con Superposición del 10 al 20%. Afina usando tu conjunto de evaluación y tu reclasificador; los trozos más pequeños suelen ayudar a recordar. El sistema recupera los fragmentos relevantes en función del vector de consulta.

¿Debo usar siempre un reranking?

Utilice uno cuando la precisión sea importante y pueda permitirse entre 10 y 30 ms por lote de candidatos. Para preguntas frecuentes sencillas con etiquetas limpias, la búsqueda híbrida por sí sola puede ser suficiente. La nueva clasificación ayuda a seleccionar los fragmentos más relevantes para el modelo.

¿Cuántas partes debo pasar al LLM?

A menudo 5 a 10 basta con un buen cambio de posición. Más fragmentos significan indicaciones más largas y un llenado previo más lento.

¿Cómo gestiono los corpus multilingües?

Utilice incrustaciones multilingües o divídalas por idioma e indexe por separado. Mantenga el idioma del chat en el indicador del sistema y prefiera las fuentes en ese idioma. El modelo de incrustación crea una representación vectorial para cada idioma, que se almacena en la base de datos vectorial.

¿El contexto largo es más simple que RAG?

Es más simple pero más lento y costoso a escala. RAG hace que las solicitudes sean breves y le permite escalar la recuperación de forma independiente.

¿Cómo puedo evitar que las respuestas estén desactualizadas?

Indexe los flujos de actualización, vuelva a incrustar los documentos modificados, almacene las marcas de tiempo y filtre las consultas según su antigüedad para evitar que la información esté desactualizada. Muestra las fechas de origen en la interfaz de usuario.

‍

Cuando los estudiantes de IA superan el entorno limitado: cómo DSTI amplió su acceso a la GPU con Hivenet

La Escuela de Ingeniería DSTI se asoció con Hivenet para ofrecer a los estudiantes de máster un acceso más uniforme a una computación GPU europea asequible para proyectos reales de aprendizaje profundo.