Generierung synthetischer Daten für agentische KI

Beschleunigen Sie die Entwicklung agentischer Workflows mit hochwertigen, fachspezifischen synthetischen Daten.

Workloads

Generative KI/LLMs
Gesprächs-KI/NLP

Branchen

Alle Branchen

Geschäftsziel

Innovation

Produkte

Überblick

Warum synthetische Daten erstellen?

Das Training spezialisierter agentischer Systeme erfordert umfangreiche, hochwertige Datensätze, die oft rar, isoliert und sensibel sind. Synthetische Daten beseitigen diesen Engpass, indem sie verschiedene Datensätze in großem Maßstab für jede Domäne erstellen, um die Entwicklung von KI-Agenten zu beschleunigen.

Synthetische Daten können zur Lösung folgender Herausforderungen beitragen:

  • Datenknappheit: Fachspezifische Datensätze sind in der Regel begrenzt oder nicht verfügbar.
  • Sicherheitsbedenken: Interne Daten sind oft zu sensibel, um extern weitergegeben zu werden.
  • Kosten und Zeitaufwnad: Die manuelle Erfassung und Kennzeichnung von Daten ist kostspielig, zeitaufwendig und anfällig für Verzerrungen.

Komplexe Anforderungen: Logisch denkende große Sprachmodelle (LLMs), Multi-Agenten-Systeme und multimodale KI-Assistenten benötigen umfangreiche Trainingsdaten, um leistungsfähig und autonom zu sein.

Nutzung synthetischer Daten

„Bis 2026 werden 75 % der Unternehmen GenAI zur Erstellung synthetischer Kundendaten nutzen, gegenüber weniger als 5 % im Jahr 2023.“

Gartner®, über 100 Vorhersagen zu Daten, Analysen und KI bis 2030 von Sarah James, Alan D. Duncan, 2. Mai 2025 (Inhalt in Englisch)
GARTNER ist eine eingetragene Marke und Dienstleistungsmarke von Gartner, Inc. und/oder deren Partnerunternehmen in den USA und international und wird hier mit Genehmigung verwendet. Alle Rechte vorbehalten.

Verwendung synthetischer Daten für LLM und agentische Systementwicklung

Agentische KI-Modelle ermöglichen es autonomen Systemen, in digitalen und realen Umgebungen zu argumentieren, zu planen und zielorientierte Maßnahmen zu ergreifen. Textbasierte synthetische Daten sind entscheidend für das sichere, effiziente Training und die Bewertung dieser Modelle in großem Maßstab.

Gesprächs-KI

Generative KI kann verwendet werden, um Daten für hochwertige Gespräche zu erstellen, wobei fachspezifische Sprache, Absichtsvariationen und seltene Randfälle erfasst werden und die Einschränkungen rarer fachspezifischer Transkripte aus der realen Welt überwunden werden. Durch die Anreicherung der Trainingsdaten mit maßgeschneiderten Dialogen verbessert sie die Genauigkeit und Anpassungsfähigkeit der Gesprächs-KI sowie deren Fähigkeit, nuancierte, mehrteilige Interaktionen zu verarbeiten.

Bewertung und Benchmarks

Gezielte Evaluierungs- und Benchmark-Datensätze, wie z. B. fachspezifische Frage-Antwort-Paare, können zur Messung und Verbesserung der Leistung von RAG-Systemen (Retrieval-Augmented Generation) verwendet werden. Der direkte Vergleich mehrerer Modelle für dasselbe Anwendungsbeispiel gewährleistet eine konsistente, faire Evaluierung und eine fundierte Modellauswahl.

Anpassung mit geringen Ressourcen

Ressourcenarme Bereiche wie proprietäre Codierungssprachen oder unterrepräsentierte Sprachen profitieren erheblich von realistischen, komplexen synthetischen Textdaten, da sie das logische Denken, die Genauigkeit und die Gesamtleistung von KI-Modellen verbessern.

Private und konforme Daten

NeMo Safe Synthesizer erstellt datenschutzkonforme Versionen sensibler Daten mit Standardkonfigurationen, die auf die Einhaltung von Datenschutzbestimmungen wie HIPAA und DSGVO ausgelegt sind. Sie ermöglichen einen nahtlosen Zugriff auf synthetische medizinische Daten ohne regulatorische oder datenschutzrechtliche Einschränkungen und fördern einen umfangreichen Wissensaustausch sowohl intern als auch extern.

Synthetische Dokumente

Entwerfen Sie hochpräzise synthetische Dokument-Datensätze für das Training groß angelegter KI-Modelle in der Validierung von Steuerformularen, rechtlichen Dokumenten, Hypothekengenehmigungen und anderen Anwendungen strukturierter Daten. 


Technische Umsetzung

Synthetische Daten generieren

Entwerfen Sie benutzerdefinierte synthetische Datensätze von Grund auf oder aus Beispieldaten

Konfigurieren Sie die Modelle, die Sie für die Generierung synthetischer Daten (SDG) verwenden möchten: Verbinden und passen Sie die Modelle an, die Ihre synthetischen Datensätze in NeMo Data Designer unterstützen. Sie können Modell-Aliase für eine einfache Referenz verwenden und Inferenzparameter optimieren, um die gewünschte Ausgabequalität und den gewünschten Stil zu erhalten.

Konfigurieren Sie die Start-Datensätze, mit denen Sie Ihren Datensatz diversifizieren möchten: Der effektivste Weg, synthetische Daten zu generieren, die zu Ihrer spezifischen Domäne passen, ist das Initialisieren des SDG-Prozesses mit Ihren bestehenden (realen) Datensätzen. Durch die Bereitstellung realer Daten als Grundlage können Sie den Generierungsprozess steuern, um sicherzustellen, dass die synthetischen Daten die Muster, Verteilungen und Eigenschaften Ihrer tatsächlichen Daten beibehalten.

Konfigurieren Sie die Spalten, mit denen Sie Ihren Datensatz diversifizieren möchten: Entwerfen Sie die Struktur und den Inhalt Ihrer synthetischen Datensätze, indem Sie Spalten definieren, die zusammenarbeiten, um realistische, hochwertige Daten zu erzeugen. Spalten sind die grundlegenden Bausteine, die bestimmen, welche Daten Sie generieren und wie sie strukturiert werden.

Konfigurieren Sie Ihre LLM-generierten Spalten mit Prompts und strukturierten Ausgaben: Entwerfen Sie die Struktur und den Inhalt Ihrer synthetischen Datensätze, indem Sie Spalten definieren, die zusammenarbeiten, um realistische Daten zu erzeugen. Spalten sind die grundlegenden Bausteine, die bestimmen, welche Daten Sie generieren und wie sie strukturiert werden. Data Designer bietet leistungsstarke Funktionen für die Generierung strukturierter Daten mit benutzerdefinierten Schemas.

Sehen Sie sich eine Vorschau Ihres Datensatzes an und passen Sie Ihre Konfiguration iterativ an: Generieren Sie ein kleines Beispiel zur Validierung. Verbessern Sie Ihr Design basierend auf den Vorschau-Ergebnissen.

Generieren Sie Daten in großem Maßstab. Sobald Ihr Design Ihre Anforderungen erfüllt, können Sie skalieren, um einen vollständigen Datensatz zu erstellen.

Evaluieren Sie die Qualität Ihrer Daten: Stellen Sie mit umfassenden Validierungs- und Bewertungstools in NeMo Data Designer eine hochwertige Generierung synthetischer Daten sicher. Validieren Sie den generierten Code auf Korrektheit und bewerten Sie die Gesamtdatenqualität mit automatisierten Metriken und LLM-basierten Bewertungsinstanzen.

Jetzt starten

Entwickeln Sie Ihre eigene SDG-Pipeline für Gesprächs-KI, Evaluierung und Benchmarks sowie andere agentische KI-Anwendungsbeispiele.

Ähnliche Anwendungsbeispiele