CVS es un motor de RAG híbrido construido para empresas que no pueden tolerar una respuesta errónea dada con seguridad. Cada etapa —ingesta, enrutamiento, recuperación y abstención— está diseñada para producir pruebas que podéis auditar, no prosa en la que tenéis que confiar.
CVS se conecta directamente allí donde ya vive vuestro conocimiento —SharePoint, Google Drive, Confluence, S3 y servidores de archivos on-premise— y luego analiza cada formato mediante triple OCR y visión: PDF, escaneados, DOCX, PPTX, XLSX e imágenes. Tablas, figuras y anclajes de página sobreviven intactos al análisis, de modo que la prueba original puede devolverse después, no parafrasearse hasta desaparecer.
El chunking inteligente produce fragmentos semánticamente coherentes en lugar de divisiones ciegas de ancho fijo. Cada fragmento se enriquece con entidades, metadatos, diffs de documentos y hechos temporales, y luego se escribe en un índice multicapa de forma simultánea: un almacén pgvector para recuperación semántica, un índice de texto completo BM25F para términos exactos, un grafo de conocimiento temporal Neo4j para relaciones, además de índices de metadatos y temporales. Una pasada, cinco superficies de recuperación.
No todas las preguntas merecen una ejecución completa de razonamiento. Un enrutador central de intención clasifica cada consulta y la despacha por una de cuatro vías: un acierto de caché instantáneo y sin tokens; una búsqueda híbrida rápida estándar; una síntesis profunda de múltiples documentos; o una vía de razonamiento ultra que descompone la pregunta en un grafo acíclico dirigido de subconsultas.
Esta cascada que ahorra tokens significa que las preguntas sencillas nunca despiertan a un LLM costoso, mientras que las preguntas genuinamente difíciles y de múltiples documentos reciben el tratamiento completo de descomposición. El resultado es latencia predecible, coste predecible y ninguna sorpresa de tokens por consulta — la cascada por sí sola reduce el gasto en LLM en un 85-95 % frente al RAG ingenuo.
CVS ejecuta cinco retrievers a la vez —búsqueda vectorial, recorrido del grafo de conocimiento, texto completo BM25F, recuperación temporal y filtrado por metadatos—. Cada uno ve el corpus de forma distinta, así que capturan pruebas diferentes: semántica, relaciones, términos exactos, validez temporal y atributos estructurados. Ningún retriever por sí solo tiene que ser perfecto.
Sus salidas ordenadas se fusionan mediante Reciprocal Rank Fusion (k=60), y luego un cross-encoder reordena los candidatos fusionados para ensamblar un conjunto de pruebas ajustado para el constructor de respuestas. Por eso CVS alcanza un 94,7 % de precisión en las respuestas frente al 67-73 % típico de los sistemas de un solo retriever como el RAG básico o Copilot.
Tras la recuperación, CVS se hace una pregunta antes de responder: ¿son suficientes las pruebas? Si lo son, responde con citas en línea y registra la interacción en una pista de auditoría a prueba de manipulaciones. Si no, se abstiene con claridad en lugar de fabricar una respuesta plausible — el único comportamiento que tumba la mayoría de los pilotos de RAG empresarial.
Una abstención no es un callejón sin salida. La pregunta sin respuesta se enruta al experto en la materia designado, su respuesta verificada se captura y la base de conocimiento se parchea para que la siguiente persona obtenga una respuesta instantánea. En producción esto reduce las alucinaciones por debajo del 2 % frente al aproximadamente 19 % del RAG ordinario.
Traed vuestra especificación más oscura o vuestra consulta más escalada. Os mostraremos el camino de las pruebas de principio a fin — y exactamente qué ocurre cuando la base no sabe.