Procesamiento inteligente de documentos

Convierta documentos, informes, presentaciones, archivos PDF, páginas web y hojas de cálculo complejos en inteligencia con capacidad de búsqueda.

Cargas de trabajo

IA Generativa / LLM
Visión Computarizada / Análisis de Video

Sectores

Servicios Financieros
Área de la Salud y Ciencias Biológicas
Sector Público
Academia/Educación Superior

Objetivo comercial

Mitigación de Riesgos
Rendimiento de la Inversión
Innovación

Productos

Descripción: Por Qué el Procesamiento Inteligente de Documentos

Lea, Comprenda y Extraiga Información de Documentos para Automatizar la Toma de Decisiones

El procesamiento inteligente de documentos ayuda a las instituciones a convertir contenido multimodal diverso (como informes, contratos, archivos, políticas y trabajos de investigación) en información estructurada que se puede buscar, al identificar la información más importante.

El procesamiento de documentos con los modelos abiertos y las bibliotecas de NVIDIA Nemotron combina la extracción de alta fidelidad, la recuperación multimodal y la generación fundamentada. Los equipos pueden crear agentes de IA que lean documentos como expertos, al tiempo que preservan la trazabilidad hasta la fuente original.

Ventajas

Estas comprenden varias áreas que ayudan a los equipos de analistas, investigadores y usuarios finales a lograr mejores resultados.

  • Descubrimiento de Información Más Rápido: Automatice la revisión de informes, contratos y políticas densos para que los equipos obtengan respuestas en segundos en lugar de horas.
  • Cargas de Trabajo de Documentos Escalables: Procese millones de archivos PDF, páginas web y hojas de cálculo en paralelo a medida que lleguen nuevos datos, sin añadir personal de forma lineal.
  • Más Calidad en las Decisiones: Conserve tablas, gráficos y cifras para que los agentes de IA razonen sobre la misma evidencia en la que confían los expertos en la actualidad.
  • Auditabilidad y Cumplimiento: Base cada respuesta en páginas y tablas citadas para cumplir los estrictos requisitos reglamentarios y de auditoría interna.
  • Impacto entre Sectores: Admita diversos flujos de trabajo en los ámbitos financiero, jurídico y científico con un pipeline inteligente que se adapta a diferentes tipos de documentos y dominios.

Cree un Pipeline de Inteligencia de Documentos con Nemotron

Descubra cómo crear un pipeline de procesamiento de documentos multimodal con los modelos de NVIDIA Nemotron para obtener respuestas fundamentadas y citadas que respondan a los estándares de cumplimiento.

Enlaces rápidos

Edison Scientific: El Científico de IA de Kosmos Sintetiza Decenas de Miles de Trabajos de Investigación

Edison Scientific, una empresa derivada de FutureHouse, está desarrollando Kosmos, un científico de IA capaz de realizar descubrimientos autónomos. Kosmos es un sistema multiagente con un agente de literatura especializado diseñado para responder a preguntas sobre literatura científica, ensayos clínicos y patentes. Con la tecnología Nemotron Parse, el agente de literatura realiza búsquedas autónomas en más de 175 millones de documentos para responder a las preguntas de los investigadores, lo que ayuda a más de 50,000 científicos en su trabajo de descubrimiento.

Para cada página, Nemotron Parse devuelve texto semántico para la incrustación y la búsqueda y, a continuación, segmenta las regiones de la imagen visual para el razonamiento multimodal de LLM.

Los artículos científicos no se escriben con un estándar común y, a menudo, incluyen cifras complejas que pueden interpretarse mal. Nemotron Parse es fundamental para identificar tablas, figuras y texto relevantes en un PDF que un LLM pueda razonar y generar respuestas a las consultas de los usuarios.

El agente de literatura de Edison ayuda a:

  • Reducir el trabajo manual al comprender grandes volúmenes de datos
  • Acelerar el análisis al extraer información clave
  • Mejorar la calidad de las decisiones que toman tanto las herramientas como los humanos

La comprensión de la literatura científica de forma rápida y precisa es un componente crítico que ha permitido a Kosmos completar 6 meses de investigación en un día, con una reproducibilidad del 80 %.

Implementación técnica

Diagrama de arquitectura

Un pipeline de procesamiento de documentos inteligente se diseña en torno a tres componentes principales: extracción, incrustación e indexación, y reclasificación para la generación de respuestas.

Los desarrolladores pueden configurar, ampliar e implementar con modelos abiertos, NeMo Retriever y los microservicios NIM.

1. Extracción: Convertir documentos complejos en datos estructurados

Utilice la biblioteca NeMo Retriever con los servicios de parsing y OCR alojados por usted mismo o por NVIDIA para ingerir archivos PDF, páginas web y otros documentos multimodales y convertirlos en unidades estructuradas, como fragmentos de texto, tablas markdown y recortes de gráficos, preservando a la vez el diseño y la semántica. Esta etapa "desbloquea" contenido enriquecido al tratar las tablas como tablas y las figuras como imágenes, lo que produce resultados en formato JSON que los modelos de recuperación y generación posteriores pueden consumir de forma confiable.

2. Incorporación e indexación: Haga que el contenido se pueda buscar a escala

Aporte los elementos extraídos a los modelos integrados multimodales de Nemotron para codificar texto, tablas y gráficos en vectores densos adaptados para la recuperación de documentos. Almacene estos vectores y los metadatos asociados en una base de datos vectorial como Milvus, lo que permite la búsqueda semántica en milisegundos en millones de elementos de documentos y mantiene su base de conocimientos continuamente actualizada a medida que llega nuevo contenido.

3. Reclasificación y generación de respuestas fundamentadas: Ofrezca respuestas citadas y de alta fidelidad

Obtenga los candidatos top-K del índice vectorial y aplique la reclasificación de codificadores cruzados de Nemotron para priorizar los pasajes, las tablas y cifras que mejor respondan a la pregunta de un usuario. Pase este contexto reclasificado a un modelo de generación de Nemotron, que produce respuestas fundamentadas con citas explícitas a las páginas y los gráficos originales para que los equipos empresariales, financieros y científicos puedan confiar y auditar cada decisión que admite el sistema.

Guía detallada sobre el código para crear un pipeline de procesamiento de documentos inteligente con las tecnologías abiertas de Nemotron


Ecosistema de colaboración

Preguntas frecuentes

Un pipeline de NVIDIA RAG de nivel de producción incluye una base de datos vectorial y microservicios NIM en contenedores o una implementación basada en Kubernetes para escalar la extracción, la incrustación y la recuperación en grandes volúmenes de documentos. Para implementaciones autoalojadas, elija GPU NVIDIA con suficiente VRAM; como alternativa, los endpoints alojados pueden reducir los requisitos de infraestructura local. También deberá ajustar la configuración de extracción (como el formato de salida de tabla y la división a nivel de página), elegir los modelos adecuados de extracción, incrustación y reclasificación de Nemotron, e instrumentar el sistema para medir el rendimiento, la latencia y la calidad de las citas a fin de cumplir con los acuerdos de nivel de servicio (SLA) empresariales.

Nemotron Parse utiliza una arquitectura de lenguaje de visión con conexión espacial para detectar y extraer texto, tablas, gráficos y elementos de presentación, lo que produce resultados estructurados y legibles por máquina en lugar de texto plano. Preserva la estructura de las tablas, el orden de lectura y las clases semánticas, lo que mejora significativamente la precisión en análisis de referencia exigentes y hace que la recuperación y el razonamiento posteriores en archivos PDF, escaneos e informes complejos sean mucho más confiables. Estos resultados estructurados también pueden admitir una división más semántica, lo que ayuda a los sistemas de recuperación a dividir los documentos en función de límites de contenido significativos en lugar de ventanas de texto arbitrarias.

Respuesta: En un pipeline de RAG, la etapa de extracción determina la calidad y la estructura de las pruebas disponibles para la recuperación. Utilice PDFium para archivos PDF creados digitalmente cuando el rendimiento sea la prioridad, OCR cuando desee la extracción visual con un equilibrio entre velocidad y precisión y Nemotron Parse cuando el diseño más completo y la estructura de los documentos mejoren la calidad del fragmentado y la recuperación. En NeMo Retriever, la elección de la ruta de extracción de OCR enruta la extracción de documentos a través del servicio de OCR NeMo Retriever.

En resumen: PDFium es la mejor opción para archivos PDF creados digitalmente, el OCR equilibra la velocidad y la extracción visual y Nemotron Parse prioriza la fidelidad del diseño y la estructura semántica.

Empezar

Cree un Pipeline de Procesamiento de Documentos Inteligente

Noticias

Casos de uso relacionados