Convierta documentos, informes, presentaciones, archivos PDF, páginas web y hojas de cálculo complejos en inteligencia con capacidad de búsqueda.
Descripción: Por Qué el Procesamiento Inteligente de Documentos
El procesamiento inteligente de documentos ayuda a las instituciones a convertir contenido multimodal diverso (como informes, contratos, archivos, políticas y trabajos de investigación) en información estructurada que se puede buscar, al identificar la información más importante.
El procesamiento de documentos con los modelos abiertos y las bibliotecas de NVIDIA Nemotron combina la extracción de alta fidelidad, la recuperación multimodal y la generación fundamentada. Los equipos pueden crear agentes de IA que lean documentos como expertos, al tiempo que preservan la trazabilidad hasta la fuente original.
Estas comprenden varias áreas que ayudan a los equipos de analistas, investigadores y usuarios finales a lograr mejores resultados.
Enlaces rápidos
Edison Scientific, una empresa derivada de FutureHouse, está desarrollando Kosmos, un científico de IA capaz de realizar descubrimientos autónomos. Kosmos es un sistema multiagente con un agente de literatura especializado diseñado para responder a preguntas sobre literatura científica, ensayos clínicos y patentes. Con la tecnología Nemotron Parse, el agente de literatura realiza búsquedas autónomas en más de 175 millones de documentos para responder a las preguntas de los investigadores, lo que ayuda a más de 50,000 científicos en su trabajo de descubrimiento.
Para cada página, Nemotron Parse devuelve texto semántico para la incrustación y la búsqueda y, a continuación, segmenta las regiones de la imagen visual para el razonamiento multimodal de LLM.
Los artículos científicos no se escriben con un estándar común y, a menudo, incluyen cifras complejas que pueden interpretarse mal. Nemotron Parse es fundamental para identificar tablas, figuras y texto relevantes en un PDF que un LLM pueda razonar y generar respuestas a las consultas de los usuarios.
El agente de literatura de Edison ayuda a:
La comprensión de la literatura científica de forma rápida y precisa es un componente crítico que ha permitido a Kosmos completar 6 meses de investigación en un día, con una reproducibilidad del 80 %.
Enlaces rápidos
Implementación técnica
Un pipeline de procesamiento de documentos inteligente se diseña en torno a tres componentes principales: extracción, incrustación e indexación, y reclasificación para la generación de respuestas.
Los desarrolladores pueden configurar, ampliar e implementar con modelos abiertos, NeMo Retriever y los microservicios NIM.
Utilice la biblioteca NeMo Retriever con los servicios de parsing y OCR alojados por usted mismo o por NVIDIA para ingerir archivos PDF, páginas web y otros documentos multimodales y convertirlos en unidades estructuradas, como fragmentos de texto, tablas markdown y recortes de gráficos, preservando a la vez el diseño y la semántica. Esta etapa "desbloquea" contenido enriquecido al tratar las tablas como tablas y las figuras como imágenes, lo que produce resultados en formato JSON que los modelos de recuperación y generación posteriores pueden consumir de forma confiable.
Aporte los elementos extraídos a los modelos integrados multimodales de Nemotron para codificar texto, tablas y gráficos en vectores densos adaptados para la recuperación de documentos. Almacene estos vectores y los metadatos asociados en una base de datos vectorial como Milvus, lo que permite la búsqueda semántica en milisegundos en millones de elementos de documentos y mantiene su base de conocimientos continuamente actualizada a medida que llega nuevo contenido.
Obtenga los candidatos top-K del índice vectorial y aplique la reclasificación de codificadores cruzados de Nemotron para priorizar los pasajes, las tablas y cifras que mejor respondan a la pregunta de un usuario. Pase este contexto reclasificado a un modelo de generación de Nemotron, que produce respuestas fundamentadas con citas explícitas a las páginas y los gráficos originales para que los equipos empresariales, financieros y científicos puedan confiar y auditar cada decisión que admite el sistema.
Guía detallada sobre el código para crear un pipeline de procesamiento de documentos inteligente con las tecnologías abiertas de Nemotron
Enlaces rápidos
Enlaces rápidos
Un pipeline de NVIDIA RAG de nivel de producción incluye una base de datos vectorial y microservicios NIM en contenedores o una implementación basada en Kubernetes para escalar la extracción, la incrustación y la recuperación en grandes volúmenes de documentos. Para implementaciones autoalojadas, elija GPU NVIDIA con suficiente VRAM; como alternativa, los endpoints alojados pueden reducir los requisitos de infraestructura local. También deberá ajustar la configuración de extracción (como el formato de salida de tabla y la división a nivel de página), elegir los modelos adecuados de extracción, incrustación y reclasificación de Nemotron, e instrumentar el sistema para medir el rendimiento, la latencia y la calidad de las citas a fin de cumplir con los acuerdos de nivel de servicio (SLA) empresariales.
Nemotron Parse utiliza una arquitectura de lenguaje de visión con conexión espacial para detectar y extraer texto, tablas, gráficos y elementos de presentación, lo que produce resultados estructurados y legibles por máquina en lugar de texto plano. Preserva la estructura de las tablas, el orden de lectura y las clases semánticas, lo que mejora significativamente la precisión en análisis de referencia exigentes y hace que la recuperación y el razonamiento posteriores en archivos PDF, escaneos e informes complejos sean mucho más confiables. Estos resultados estructurados también pueden admitir una división más semántica, lo que ayuda a los sistemas de recuperación a dividir los documentos en función de límites de contenido significativos en lugar de ventanas de texto arbitrarias.
Respuesta: En un pipeline de RAG, la etapa de extracción determina la calidad y la estructura de las pruebas disponibles para la recuperación. Utilice PDFium para archivos PDF creados digitalmente cuando el rendimiento sea la prioridad, OCR cuando desee la extracción visual con un equilibrio entre velocidad y precisión y Nemotron Parse cuando el diseño más completo y la estructura de los documentos mejoren la calidad del fragmentado y la recuperación. En NeMo Retriever, la elección de la ruta de extracción de OCR enruta la extracción de documentos a través del servicio de OCR NeMo Retriever.
En resumen: PDFium es la mejor opción para archivos PDF creados digitalmente, el OCR equilibra la velocidad y la extracción visual y Nemotron Parse prioriza la fidelidad del diseño y la estructura semántica.
Enlaces rápidos