Generación de datos sintéticos para IA de agentes

Acelere el desarrollo de flujos de trabajo de agentes con datos sintéticos de alta calidad y específicos de dominio.

Cargas de trabajo

IA generativa/LLM
IA conversacional/NLP

Sectores

Todos los sectores

Objetivo comercial

Innovación

Productos

Descripción

¿Por qué crear datos sintéticos?

El entrenamiento de sistemas de agentes especializados requiere conjuntos de datos extensos y de alta calidad que a menudo son escasos, aislados o sensibles. Los datos sintéticos eliminan este cuello de botella al crear diversos conjuntos de datos a escala para cualquier dominio para acelerar el desarrollo de agentes de IA.

Los datos sintéticos pueden ayudar a resolver desafíos como:

  • Escasez de datos: los conjuntos de datos específicos de dominio suelen estar limitados o no estar disponibles.
  • Preocupaciones de seguridad: los datos internos a menudo son demasiado sensibles para compartirlos externamente.
  • Coste y tiempo: la recopilación y el etiquetado de datos manuales son costosos, lentos y propensos a sesgos.

Requisitos complejos: el razonamiento de modelos lingüísticos de gran tamaño (LLM), sistemas multiagentes y asistentes de IA multimodales requieren amplios datos de entrenamiento para ser útiles y autónomos.

Uso de datos sintéticos

«Para 2026, el 75 % de las empresas utilizará la IA generativa para crear datos sintéticos de clientes, en comparación con menos del 5 % en 2023».

Gartner®, Over 100 Data, Analytics and AI Predictions Through 2030 by Sarah James, Alan D. Duncan, 2 de mayo de 2025
GARTNER es una marca comercial y una marca de servicio registrada de Gartner, Inc. y/o sus afiliados en los Estados Unidos e internacionalmente y se utiliza en el presente documento con permiso. Todos los derechos reservados.

Uso de datos sintéticos para el desarrollo de modelos lingüísticos de gran tamaño (LLM) y sistemas de agentes.

Los modelos de IA de agentes permiten a los sistemas autónomos razonar, planificar y tomar acciones impulsadas por objetivos en entornos digitales y del mundo real. Los datos sintéticos basados en texto son críticos para entrenar y evaluar estos modelos de forma segura, eficiente y a escala.

IA conversacional

La IA generativa se puede utilizar para crear datos para conversaciones de alta calidad, capturando lenguaje específico de dominio, variaciones de intención y casos límite raros, superando las limitaciones de las escasas transcripciones del mundo real. Al enriquecer los datos de entrenamiento con diálogos personalizados, mejora la precisión de la IA conversacional, la adaptabilidad y la capacidad de gestionar interacciones con matices y varios giros.

Evaluación y criterios de referencia

Se pueden utilizar conjuntos de datos de evaluación y puntos de referencia específicos, como pares de pregunta-respuesta específicos de dominio, para medir y mejorar el rendimiento del sistema de generación aumentada por recuperación (RAG). La comparación lado a lado de varios modelos en el mismo caso de uso garantiza una evaluación coherente y justa y una selección de modelos informada.

Adaptación de bajos recursos

Los dominios de bajos recursos, como los lenguajes de codificación propietarios o los lenguajes subrepresentados, se benefician en gran medida de los datos de texto sintéticos realistas y complejos, mejorando el razonamiento, la precisión y el rendimiento general de los modelos de IA.

Datos privados y conformes

NeMo Safe Synthesizer crea versiones de datos confidenciales seguras para la privacidad con configuraciones predeterminadas diseñadas para cumplir con las regulaciones de privacidad de datos, como HIPAA y RGPD, proporcionando acceso sin problemas a los datos médicos sintéticos sin restricciones regulatorias o de privacidad, lo que permite un vasto intercambio de conocimiento tanto interna como externamente.

Documentos sintéticos

Diseñe conjuntos de datos de documentos sintéticos de alta fidelidad para el entrenamiento de modelos de IA a gran escala en la validación de formularios de impuestos, documentos legales, aprobaciones de hipotecas y otras aplicaciones de datos estructurados. 


Implementación técnica

Generación de datos sintéticos

Diseñe conjuntos de datos sintéticos personalizados a partir de cero o de datos de ejemplo

Configure los modelos que desea utilizar para la generación de datos sintéticos (SDG): conecte y personalice los modelos que impulsan sus conjuntos de datos sintéticos en NeMo Data Designer. Puede utilizar alias de modelos para una fácil referencia y ajustar los parámetros de inferencia para obtener la calidad y el estilo de salida correctos que necesita.

Configure los conjuntos de datos semilla que desea utilizar para diversificar su conjunto de datos: la forma más eficaz de generar datos sintéticos que coincidan con su dominio específico es sembrar el proceso de SDG con sus conjuntos de datos existentes (del mundo real). Al proporcionar datos reales como base, puede dirigir el proceso de generación para garantizar que los datos sintéticos mantengan los patrones, distribuciones y características de sus datos reales.

Configure las columnas que desea utilizar para diversificar su conjunto de datos: diseñe la estructura y el contenido de sus conjuntos de datos sintéticos definiendo columnas que trabajan juntas para producir datos realistas y de alta calidad. Las columnas son los bloques de construcción fundamentales que determinan qué datos generará y cómo se estructurarán.

Configure sus columnas generadas por LLM con indicaciones y salidas estructuradas: diseñe la estructura y el contenido de sus conjuntos de datos sintéticos definiendo columnas que funcionan juntas para producir datos realistas. Las columnas son los bloques de construcción fundamentales que determinan qué datos generará y cómo se estructurarán. Data Designer proporciona potentes capacidades para generar datos estructurados con esquemas definidos por el usuario.

Obtenga una vista previa de su conjunto de datos e itere en su configuración: genere una pequeña muestra para la validación. Refine su diseño en función de los resultados de la vista previa.

Genere datos a escala. Una vez que su diseño cumpla con sus requisitos, puede escalar para crear un conjunto de datos completo.

Evalúe la calidad de sus datos: garantice la generación de datos sintéticos de alta calidad con herramientas de validación y evaluación integrales en NeMo Data Designer. Valide el código generado para determinar su corrección y evalúe la calidad general de los datos utilizando métricas automatizadas y jueces basados en LLM.

Empezar

Construya su propia canalización de SDG para IA conversacional, evaluación y benchmarks, y otros casos de uso de IA de agentes.

Casos de uso relacionados