合成データ生成 (SDG)

フィジカル AI とエージェント型 AI ワークフローの開発を加速します。

フィジカル AI のための SDG を探索する

概要
技術的実装
パートナーエコシステム
今すぐ始める
関連するユースケース

概要
技術的実装
パートナーエコシステム
今すぐ始める
関連するユースケース

フィジカル AI のための SDG を探索する

ワークロード

シミュレーション/モデリング/デザイン
ロボティクス
生成 AI

業種

すべての業種

事業目標

イノベーション

製品

NVIDIA Omniverse Enterprise
NVIDIA AI
NVIDIA Isaac

概要

合成データを使う理由とは?

AI モデルの訓練には、望ましい精度と性能を達成するために、慎重にラベル付けされた高品質で多様なデータセットが必要です。多くの場合、データは限られているか、制限されているか、入手できない状況にあります。実世界のデータの収集とラベル付けは時間がかかり、非常に高コストになる可能性があり、大規模言語モデル (LLM) などの各種モデルの開発を遅らせることになります。

合成データ—コンピューターシミュレーション、生成 AI モデル、またはその両方から生成される—はこの課題の解決に役立ちます。合成データはテキスト、動画、視覚的および非視覚的なスペクトルにわたる 2D または 3D 画像で構成でき、実世界のデータと組み合わせてマルチモーダルなフィジカル AI モデルの訓練に使用できます。これにより、訓練時間を大幅に節約し、コストを大きく削減することができます。

シミュレーションや AI を通じて生成された合成データは、テキスト、動画、2D/3D 画像を提供することでデータ不足の課題に対応し、これらは実データと共にマルチモーダルな物理 AI モデルの訓練に使用でき、時間を節約しコストを削減します。

AI モデルトレーニングの速度

データギャップを克服し、モデルトレーニングに必要なデータの取得とラベル付けの全体的なコストを削減しながら、AI モデル開発を加速します。

プライバシーとセキュリティ

プライバシーの問題に対処し、実世界を表現する多様な合成データセットを生成することでバイアスを減らします。

精度

収集が不可能な稀少だが重要なコーナーケースを含む多様なデータで学習することで、高精度で汎用的な AI モデルを作成します。

拡張可能

手順に従ってデータを生成し、製造、自動車、ロボティクスなど、あなたのユースケースに合わせて拡張できる自動化されたパイプラインデータを提供します。

フィジカル AI 開発のための合成データ

フィジカル AI モデルは自律システムが物理世界を認識し、理解し、相互作用し、そして移動することを可能にします。合成データはフィジカル AI モデルの訓練とテストに不可欠です。

基盤モデルの訓練

世界基盤モデル (WFM) は、テキスト、画像、動画、動きの情報など多様な入力データを活用して、驚くべき精度で仮想世界を生成しシミュレーションします。

WFM は優れた汎化能力を特徴とし、様々なアプリケーションに対して最小限のファインチューニングしか必要としません。それらはロボットや自動運転車の認知エンジンとして機能し、実世界のダイナミクスに関する包括的な理解を活用します。この洗練されたレベルに達するため、WFM は膨大な量のトレーニングデータに依存しています。

WFM の開発は、物理的に正確なシミュレーションを通じて無限の合成データを生成することから大きな恩恵を受けます。このアプローチはモデル訓練プロセスを加速するだけでなく、多様なシナリオにわたってモデルの汎化能力を強化します。ドメインランダム化技術は、照明、背景、色、位置、環境などの多数のパラメータを操作できるようにすることで、このプロセスをさらに強化します—これらのバリエーションは実世界のデータだけから包括的に捉えることはほぼ不可能です。

ロボットポリシーのトレーニング

ロボット学習は、ロボットが操作、移動、分類などの新しいスキルをシミュレーションまたは実世界環境で学ぶのを助けるアルゴリズムと方法論の集合体です。強化学習、模倣学習、拡散ポリシーはロボットを訓練するために適用される主要な方法論です。

ロボットにとって重要なスキルの一つは操作です—工場で見られるように、物を拾い上げ、分類し、組み立てることです。実世界の人間によるデモンストレーションが通常、訓練の入力として使用されます。しかし、大規模で多様なデータセットの収集は非常に高コストです。少数の人間によるデモンストレーションを用いて、開発者はシミュレーション環境で合成モーションを生成し、ロボットトレーニングプロセスを加速することができます。

これを実現するために、ユーザーはまず GR00T-Teleop を使用して Apple Vision Pro (AVP) で少数の人間によるデモンストレーションを収集できます。記録されたデモンストレーションは、その後 GR00T-Mimic を使用して大量の合成モーションを生成するために使用されます。次に、NVIDIA Omniverse™ と NVIDIA Cosmos™ 上に構築された GR00T-Gen を使用して、ドメインランダム化と 3D から実世界への拡張を行い、模倣学習のための指数関数的に大規模で多様なトレーニングデータセットを生成します。

テストと検証

ソフトウェアインループ (SIL) は AI 搭載ロボットと自動運転車にとって重要なテスト段階であり、制御ソフトウェアが実際のハードウェアではなくシミュレーション環境でテストされます。

シミュレーションから生成された合成データは、センサー入力、アクチュエーターのダイナミクス、環境との相互作用など、実世界の物理学の正確なモデリングを確保します。これはまた、実世界で収集するには危険な稀なシナリオを捉える方法も提供します。これにより、シミュレーション内のロボットソフトウェアスタックが物理的なロボット上でのように動作することが保証され、物理的なハードウェアを必要とせずに徹底的なテストと検証が可能になります。

Mega は、実世界の施設に展開する前に、デジタルツイン内で大規模に物理 AI とロボットフリートを開発、テスト、最適化するための Omniverse Blueprint です。

これらのシミュレーションされたロボットは、環境を認識し推論することでタスクを実行できます。彼らは次の動きを計画し、デジタルツイン内でシミュレーションされたアクションを実行する能力を持っています。これらのシミュレーションからの合成データはロボットのブレインにフィードバックされます。ロボットのブレインは結果を認識して次のアクションを決定し、このサイクルは Mega がデジタルツイン内のすべての資産の状態と位置を正確に追跡しながら継続します。

LLM とエージェント型 AI 開発のための合成データ

生成モデルを使用して、合成データ生成プロセスをブートストラップし、増大させることができます。テキストから 3D へと変換するモデルを使用すれば、3D アセットを作成して、3D シミュレーションシーンにデータを入力することができます。さらに、テキストから画像へと変換する生成 AI モデルを活用して、既存の画像 (シミュレーションから生成された画像や、実世界から手順に沿ってインペインティングやアウトペインティングを通じて収集した画像) を修正および補強することもできます。

Evian 2 405B や Nemotron-4 340B などのテキストからテキストへの生成 AI モデルを使用して、医療、金融、サイバーセキュリティ、小売、通信向けの強力な LLM を構築するための合成データを生成できます。

Evian 2 405B と Nemotron-4 340B はオープンライセンスであり、開発者は学術的および商業的な用途に対して、生成されたデータを自由に所有し、柔軟に使用することができます。

生成 AI を活用した SDG パイプラインの構築方法

生成 AI は、物理的に正確な合成データを大規模に生成するプロセスを大幅に加速することができます。開発者はステップバイステップのリファレンスワークフローを使用して、SDG のための生成 AI の利用を開始できます。

リファレンスワークフローを表示

クイックリンク

NVIDIA がフィジカル AI 合成データセットをリリース

NVIDIA Cosmos 世界基盤モデルプラットフォームについて学ぶ

合成操作モーション生成のための GR00T

ロボットフリートのシミュレーションのための NVIDIA Omniverse Mega Blueprint

技術的実装

合成データの生成

フィジカル AI のために

シーン作成: 包括的な 3D シーンが基盤として機能し、倉庫用の棚、箱、パレットや、屋外環境用の木、道路、建物などの必須アセットを組み込みます。環境は Universal Scene Description (OpenUSD) 用の NVIDIA NIM™ マイクロサービスを使用して動的に強化でき、多様なオブジェクトのシームレスな追加と 360° HDRI 背景の統合を可能にします。
ドメインランダム化：開発者は OpenUSD に特化した最先端の LLM である USD Code NIM を活用して、ドメインランダム化を実行できます。この強力なツールは OpenUSD 関連のクエリに回答するだけでなく、シーンに変更を加えるための USD Python コードを生成し、NVIDIA Omniverse 内でさまざまなシーンパラメーターをプログラムで変更するプロセスを効率化します。
データ生成: 3 番目のステップでは、注釈付き画像の初期セットをエクスポートします。Omniverse は、2D バウンディングボックス、セマンティックセグメンテーション、深度マップ、表面法線など、多数の組み込みアノテータを提供しています。バウンディングボックスやアニメーションなどの出力形式の選択は、特定のモデル要件やユースケースによって異なります。
データ拡張: 最終段階では、開発者は NVIDIA Cosmos WFM を活用して、3D から実世界への画像をさらに拡張できます。これにより、シンプルなユーザープロンプトを通じて、生成された画像に必要なフォトリアリズムをもたらします。

クイックリンク

合成データを使用して倉庫のパレットジャッキを検出する自律移動ロボットを訓練する

LLM とエージェント型 AI のために

モデルへのアクセス: NVIDIA NGC™ カタログまたは Hugging Face から Nemotron-4 340B オープンソースモデルファミリをダウンロードします。build.nvidia.com から NVIDIA NIM マイクロサービスとしてアクセスすることもできます。
ドメイン固有データ生成: オープンソースの Nemotron-4-340B-Instruct モデルに指示して、実世界の特性を模倣したカスタムテキストベースの多様なドメインを持つ合成データセットを生成します。
評価とフィルタリング: Nemotron-4 340B-Reward モデルを適用して、有用性、正確性、一貫性、複雑さ、冗長性に基づいて生成された応答を評価します。
高品質で関連性の高い合成データセットの活用: 報酬モデルのフィードバックに基づいて反復的に改善することで合成データを洗練し、精度と関連性を確保します。