Tecnología CVS — RAG híbrido, 5 retrievers en paralelo, fusión RRF y abstención

Ingesta

Un pipeline de ingesta de cinco etapas convierte un documento en pruebas buscables.

CVS se conecta directamente allí donde ya vive vuestro conocimiento —SharePoint, Google Drive, Confluence, S3 y servidores de archivos on-premise— y luego analiza cada formato mediante triple OCR y visión: PDF, escaneados, DOCX, PPTX, XLSX e imágenes. Tablas, figuras y anclajes de página sobreviven intactos al análisis, de modo que la prueba original puede devolverse después, no parafrasearse hasta desaparecer.

El chunking inteligente produce fragmentos semánticamente coherentes en lugar de divisiones ciegas de ancho fijo. Cada fragmento se enriquece con entidades, metadatos, diffs de documentos y hechos temporales, y luego se escribe en un índice multicapa de forma simultánea: un almacén pgvector para recuperación semántica, un índice de texto completo BM25F para términos exactos, un grafo de conocimiento temporal Neo4j para relaciones, además de índices de metadatos y temporales. Una pasada, cinco superficies de recuperación.

Conectores para SharePoint, Google Drive, Confluence, S3 y recursos de archivos locales — sin migraciones de copiar y pegar
Triple OCR más enriquecimiento por visión en PDF, PDF escaneado, DOCX, PPTX, XLSX e imágenes
Chunking semántico que preserva tablas, figuras y anclajes de página como pruebas de primera clase
Indexación multicapa en pgvector, BM25F, grafo de conocimiento temporal Neo4j, metadatos y almacenes temporales

**Un pipeline de ingesta de cinco etapas convierte un documento en pruebas buscables..** CVS se conecta directamente allí donde ya vive vuestro conocimiento —SharePoint, Google Drive, Confluence, S3 y servidores de archivos on-premise— y luego analiza cada formato mediante triple OCR y visión: PDF, escaneados, DOCX, PPTX, XLSX e imágenes. Tablas, figuras y anclajes de página sobreviven intactos al análisis, de modo que la prueba original puede devolverse después, no parafrasearse hasta desaparecer.

Enrutamiento

Un enrutador de intención envía cada consulta por la vía más económica que pueda responderla.

No todas las preguntas merecen una ejecución completa de razonamiento. Un enrutador central de intención clasifica cada consulta y la despacha por una de cuatro vías: un acierto de caché instantáneo y sin tokens; una búsqueda híbrida rápida estándar; una síntesis profunda de múltiples documentos; o una vía de razonamiento ultra que descompone la pregunta en un grafo acíclico dirigido de subconsultas.

Esta cascada que ahorra tokens significa que las preguntas sencillas nunca despiertan a un LLM costoso, mientras que las preguntas genuinamente difíciles y de múltiples documentos reciben el tratamiento completo de descomposición. El resultado es latencia predecible, coste predecible y ninguna sorpresa de tokens por consulta — la cascada por sí sola reduce el gasto en LLM en un 85-95 % frente al RAG ingenuo.

Vía instantánea: caché sin tokens para consultas repetidas y de respuesta trivial
Vía estándar: búsqueda híbrida rápida para la mayoría de las preguntas cotidianas
Vía profunda: síntesis de múltiples documentos cuando una sola fuente no basta
Vía ultra: DAG de descomposición que divide preguntas complejas en subpasos auditables

**Un enrutador de intención envía cada consulta por la vía más económica que pueda responderla..** No todas las preguntas merecen una ejecución completa de razonamiento. Un enrutador central de intención clasifica cada consulta y la despacha por una de cuatro vías: un acierto de caché instantáneo y sin tokens; una búsqueda híbrida rápida estándar; una síntesis profunda de múltiples documentos; o una vía de razonamiento ultra que descompone la pregunta en un grafo acíclico dirigido de subconsultas.

Recuperación

5 retrievers en paralelo, fusionados por RRF, reordenados por un cross-encoder.

CVS ejecuta cinco retrievers a la vez —búsqueda vectorial, recorrido del grafo de conocimiento, texto completo BM25F, recuperación temporal y filtrado por metadatos—. Cada uno ve el corpus de forma distinta, así que capturan pruebas diferentes: semántica, relaciones, términos exactos, validez temporal y atributos estructurados. Ningún retriever por sí solo tiene que ser perfecto.

Sus salidas ordenadas se fusionan mediante Reciprocal Rank Fusion (k=60), y luego un cross-encoder reordena los candidatos fusionados para ensamblar un conjunto de pruebas ajustado para el constructor de respuestas. Por eso CVS alcanza un 94,7 % de precisión en las respuestas frente al 67-73 % típico de los sistemas de un solo retriever como el RAG básico o Copilot.

Vectorial (pgvector) + grafo de conocimiento Neo4j + BM25F + temporal + metadatos, todo en paralelo
Reciprocal Rank Fusion (k=60) fusiona cinco rankings independientes en un consenso único
El reranking por cross-encoder afina el conjunto de pruebas final antes de generar la respuesta
94,7 % de precisión en las respuestas frente al 67-73 % de los sistemas de un solo retriever

**5 retrievers en paralelo, fusionados por RRF, reordenados por un cross-encoder..** CVS ejecuta cinco retrievers a la vez —búsqueda vectorial, recorrido del grafo de conocimiento, texto completo BM25F, recuperación temporal y filtrado por metadatos—. Cada uno ve el corpus de forma distinta, así que capturan pruebas diferentes: semántica, relaciones, términos exactos, validez temporal y atributos estructurados. Ningún retriever por sí solo tiene que ser perfecto.

Abstención

Abstención adversarial: el sistema sabe cuándo no sabe.

Tras la recuperación, CVS se hace una pregunta antes de responder: ¿son suficientes las pruebas? Si lo son, responde con citas en línea y registra la interacción en una pista de auditoría a prueba de manipulaciones. Si no, se abstiene con claridad en lugar de fabricar una respuesta plausible — el único comportamiento que tumba la mayoría de los pilotos de RAG empresarial.

Una abstención no es un callejón sin salida. La pregunta sin respuesta se enruta al experto en la materia designado, su respuesta verificada se captura y la base de conocimiento se parchea para que la siguiente persona obtenga una respuesta instantánea. En producción esto reduce las alucinaciones por debajo del 2 % frente al aproximadamente 19 % del RAG ordinario.

Una compuerta de confianza evalúa la suficiencia de las pruebas antes de generar ninguna respuesta
Pruebas suficientes → respuesta citada más una entrada completa en la pista de auditoría
Pruebas insuficientes → abstención clara, seguida de escalado al experto
Las respuestas de expertos capturadas parchean la base — menos del 2 % de alucinaciones frente al ~19 % del RAG ordinario

**Abstención adversarial: el sistema sabe cuándo no sabe..** Tras la recuperación, CVS se hace una pregunta antes de responder: ¿son suficientes las pruebas? Si lo son, responde con citas en línea y registra la interacción en una pista de auditoría a prueba de manipulaciones. Si no, se abstiene con claridad en lugar de fabricar una respuesta plausible — el único comportamiento que tumba la mayoría de los pilotos de RAG empresarial.

Cómo un documento se convierte en una respuesta verificada y citable.

Un pipeline de ingesta de cinco etapas convierte un documento en pruebas buscables.

Un enrutador de intención envía cada consulta por la vía más económica que pueda responderla.

5 retrievers en paralelo, fusionados por RRF, reordenados por un cross-encoder.

Abstención adversarial: el sistema sabe cuándo no sabe.

Poned CVS a prueba con vuestra pregunta más difícil.