Beschleunigen Sie die Entwicklung agentischer Workflows mit hochwertigen, fachspezifischen synthetischen Daten.
Generative KI/LLMs
Gesprächs-KI/NLP
Alle Branchen
Innovation
Überblick
Das Training spezialisierter agentischer Systeme erfordert umfangreiche, hochwertige Datensätze, die oft rar, isoliert und sensibel sind. Synthetische Daten beseitigen diesen Engpass, indem sie verschiedene Datensätze in großem Maßstab für jede Domäne erstellen, um die Entwicklung von KI-Agenten zu beschleunigen.
Synthetische Daten können zur Lösung folgender Herausforderungen beitragen:
Komplexe Anforderungen: Logisch denkende große Sprachmodelle (LLMs), Multi-Agenten-Systeme und multimodale KI-Assistenten benötigen umfangreiche Trainingsdaten, um leistungsfähig und autonom zu sein.
„Bis 2026 werden 75 % der Unternehmen GenAI zur Erstellung synthetischer Kundendaten nutzen, gegenüber weniger als 5 % im Jahr 2023.“
Gartner®, über 100 Vorhersagen zu Daten, Analysen und KI bis 2030 von Sarah James, Alan D. Duncan, 2. Mai 2025 (Inhalt in Englisch)
GARTNER ist eine eingetragene Marke und Dienstleistungsmarke von Gartner, Inc. und/oder deren Partnerunternehmen in den USA und international und wird hier mit Genehmigung verwendet. Alle Rechte vorbehalten.
Quick-Links
Agentische KI-Modelle ermöglichen es autonomen Systemen, in digitalen und realen Umgebungen zu argumentieren, zu planen und zielorientierte Maßnahmen zu ergreifen. Textbasierte synthetische Daten sind entscheidend für das sichere, effiziente Training und die Bewertung dieser Modelle in großem Maßstab.
Generative KI kann verwendet werden, um Daten für hochwertige Gespräche zu erstellen, wobei fachspezifische Sprache, Absichtsvariationen und seltene Randfälle erfasst werden und die Einschränkungen rarer fachspezifischer Transkripte aus der realen Welt überwunden werden. Durch die Anreicherung der Trainingsdaten mit maßgeschneiderten Dialogen verbessert sie die Genauigkeit und Anpassungsfähigkeit der Gesprächs-KI sowie deren Fähigkeit, nuancierte, mehrteilige Interaktionen zu verarbeiten.
Gezielte Evaluierungs- und Benchmark-Datensätze, wie z. B. fachspezifische Frage-Antwort-Paare, können zur Messung und Verbesserung der Leistung von RAG-Systemen (Retrieval-Augmented Generation) verwendet werden. Der direkte Vergleich mehrerer Modelle für dasselbe Anwendungsbeispiel gewährleistet eine konsistente, faire Evaluierung und eine fundierte Modellauswahl.
Ressourcenarme Bereiche wie proprietäre Codierungssprachen oder unterrepräsentierte Sprachen profitieren erheblich von realistischen, komplexen synthetischen Textdaten, da sie das logische Denken, die Genauigkeit und die Gesamtleistung von KI-Modellen verbessern.
NeMo Safe Synthesizer erstellt datenschutzkonforme Versionen sensibler Daten mit Standardkonfigurationen, die auf die Einhaltung von Datenschutzbestimmungen wie HIPAA und DSGVO ausgelegt sind. Sie ermöglichen einen nahtlosen Zugriff auf synthetische medizinische Daten ohne regulatorische oder datenschutzrechtliche Einschränkungen und fördern einen umfangreichen Wissensaustausch sowohl intern als auch extern.
Entwerfen Sie hochpräzise synthetische Dokument-Datensätze für das Training groß angelegter KI-Modelle in der Validierung von Steuerformularen, rechtlichen Dokumenten, Hypothekengenehmigungen und anderen Anwendungen strukturierter Daten.
Technische Umsetzung
Konfigurieren Sie die Modelle, die Sie für die Generierung synthetischer Daten (SDG) verwenden möchten: Verbinden und passen Sie die Modelle an, die Ihre synthetischen Datensätze in NeMo Data Designer unterstützen. Sie können Modell-Aliase für eine einfache Referenz verwenden und Inferenzparameter optimieren, um die gewünschte Ausgabequalität und den gewünschten Stil zu erhalten.
Konfigurieren Sie die Start-Datensätze, mit denen Sie Ihren Datensatz diversifizieren möchten: Der effektivste Weg, synthetische Daten zu generieren, die zu Ihrer spezifischen Domäne passen, ist das Initialisieren des SDG-Prozesses mit Ihren bestehenden (realen) Datensätzen. Durch die Bereitstellung realer Daten als Grundlage können Sie den Generierungsprozess steuern, um sicherzustellen, dass die synthetischen Daten die Muster, Verteilungen und Eigenschaften Ihrer tatsächlichen Daten beibehalten.
Konfigurieren Sie die Spalten, mit denen Sie Ihren Datensatz diversifizieren möchten: Entwerfen Sie die Struktur und den Inhalt Ihrer synthetischen Datensätze, indem Sie Spalten definieren, die zusammenarbeiten, um realistische, hochwertige Daten zu erzeugen. Spalten sind die grundlegenden Bausteine, die bestimmen, welche Daten Sie generieren und wie sie strukturiert werden.
Konfigurieren Sie Ihre LLM-generierten Spalten mit Prompts und strukturierten Ausgaben: Entwerfen Sie die Struktur und den Inhalt Ihrer synthetischen Datensätze, indem Sie Spalten definieren, die zusammenarbeiten, um realistische Daten zu erzeugen. Spalten sind die grundlegenden Bausteine, die bestimmen, welche Daten Sie generieren und wie sie strukturiert werden. Data Designer bietet leistungsstarke Funktionen für die Generierung strukturierter Daten mit benutzerdefinierten Schemas.
Sehen Sie sich eine Vorschau Ihres Datensatzes an und passen Sie Ihre Konfiguration iterativ an: Generieren Sie ein kleines Beispiel zur Validierung. Verbessern Sie Ihr Design basierend auf den Vorschau-Ergebnissen.
Generieren Sie Daten in großem Maßstab. Sobald Ihr Design Ihre Anforderungen erfüllt, können Sie skalieren, um einen vollständigen Datensatz zu erstellen.
Evaluieren Sie die Qualität Ihrer Daten: Stellen Sie mit umfassenden Validierungs- und Bewertungstools in NeMo Data Designer eine hochwertige Generierung synthetischer Daten sicher. Validieren Sie den generierten Code auf Korrektheit und bewerten Sie die Gesamtdatenqualität mit automatisierten Metriken und LLM-basierten Bewertungsinstanzen.
Quick-Links
Entwickeln Sie Ihre eigene SDG-Pipeline für Gesprächs-KI, Evaluierung und Benchmarks sowie andere agentische KI-Anwendungsbeispiele.