映像解析 AI エージェントは、ライブまたは録画された動画のストリームを基に、見て、論理的に推論し、行動できる AI 搭載のアシスタントです。視覚言語モデルと大規模言語モデルを活用して、自然言語による動画の検索、要約、理解を支援します。
ワークロード
コンピューター ビジョン / 映像解析
業種
製造
スマート シティ/空間
小売/消費財
メディアとエンターテインメント
ヘルスケアとライフサイエンス
事業目標
投資収益率
イノベーション
概要
従来の映像解析アプリケーションとその開発ワークフローは、通常、固定機能の限定的なモデルに基づいて構築されており、事前に定義された特定のオブジェクトのみを検出または識別するように設計されています。しかし、生成 AI と基盤モデルが登場したことで、より少ないモデルを使用して、非常に複雑で広範な認識能力と豊かなコンテキスト理解能力を兼ね備えたアプリケーションを構築できるようになりました。NVIDIA Cosmos™ をはじめとするこの新世代の視覚言語モデル (VLM: Vision Language Models) は、スマートで強力な映像解析 AI エージェントを生み出しています。
映像解析 AI エージェントは、視覚と言語のモダリティを組み合わせることで、録画済みまたはライブの映像ストリームに適用される幅広い自然言語の質問やプロンプトを理解し、見て、推論し、行動することができます。動画コンテンツに対するこのような深い理解により、より正確で意味のある解釈が可能になり、映像解析アプリケーションの機能性や実世界のシナリオの分析が向上します。これらのエージェントは、自動化のための全く新しい洞察と可能性をを切り開くことが期待されています。
高度な知覚能力、正確性、インタラクティブ性を備えた映像解析 AI エージェントは、工場、倉庫、小売店、空港、交通の交差点など、さまざまな場所に展開されます。これは、自然なやりとりから生成されたより豊かなインサイトを活用して、より安全な空間を作り、より優れた意思決定を行おうとしている運用チームに、多大な影響を与えるでしょう。管理者や運用チームは、これらのエージェントと自然言語でコミュニケーションを取ることができ、これらはすべて、NVIDIA NIM™ マイクロサービスを中核とする生成 AI と VLM によって実現されます。
クイック リンク
技術的実装
あらゆる映像解析 AI エージェントの中核にある頭脳は、視覚と推論能力を備えた VLM です。代表的な VLM として、NVIDIA Cosmos 3 と Cosmos Embed の 2 つがあります。どちらも、豊富なメタデータとコンテンツの要約によって、既存のコンピューター ビジョン アプリケーションを拡張するために使用できます。
NVIDIA NIM は、NVIDIA GPU 向けに最適化された一連の高速推論マイクロサービスであり、業界標準の API、ドメイン固有のコード、最適化された推論エンジン、エンタープライズ ランタイムが含まれています。NIM は、VLM、大規模言語モデル (LLM)、検索拡張生成 (RAG) を組み合わせることで、ライブまたはアーカイブされた画像や動画を処理し、自然言語を使用して実用的なインサイトを抽出できる映像解析 AI エージェントを構築できます。 NVIDIA は、開発プロセスを加速するために試せる、映像解析 AI エージェントのリファレンス ワークフローを作成しました。
クイック リンク
動画検索と要約 (VSS: Video Search and Summarization) のための NVIDIA Metropolis Blueprint により、生成 AI、VLM、LLM、RAG、NVIDIA NIM を活用した映像解析 AI エージェントを簡単に構築し、カスタマイズすることができます。映像解析 AI エージェントは自然言語を通じてタスクを与えられ、膨大な量の動画データを分析、解釈、処理して、さまざまな産業がプロセスの最適化、安全性の向上、コスト削減を実現するのに役立つ重要なインサイトを提供します。
VSS は、高い柔軟性を実現するモジュール化されたコンポーネント、リアルタイムの映像インテリジェンスをサポートする高速マイクロサービス、多様な埋め込みにわたるエージェント型融合検索、包括的なレポート生成機能を提供します。さらに、開発者が簡単な自然言語プロンプトとコーディング エージェントを使用して映像解析 AI エージェントを構築できる、エージェント スキルとツールも提供します。
また、VSS は、生成 AI を既存のコンピューター ビジョン パイプラインにシームレスに統合することもでき、マルチモーダルな理解とゼロショット推論によって検査、検索、分析が強化されます。VSS は、NVIDIA RTX™ 4500、NVIDIA RTX PRO™ 6000、NVIDIA DGX Spark™、NVIDIA® Jetson Thor™ などのプラットフォーム上で、エッジからクラウドまで簡単にデプロイできます。
クイック リンク
映像解析 AI エージェント向けにモデルをカスタマイズする従来のアプローチは、動画の収集、フレームのラベル付け、トレーニング、評価、繰り返しというサイクルを辿り、あらゆるステップで人間が関与し、許容可能な精度に達するまでに数か月を要する、直線的で時間のかかるものでした。最新のアプローチでは、コーディング エージェントが目標に基づいて VLM とビジョン基盤モデルのパフォーマンスを反復的に向上させることで、この悪循環を打破します。
NVIDIA TAO エージェント スキルで視覚言語モデルをファインチューニング。
NVIDIA TAO は、自然言語プロンプトを使用して、ビジョン AI モデルをファインチューニングするための一連のエージェント スキルとツールです。 コーディング エージェントはこれらのツールとスキルを使用して、モデルの精度を繰り返し評価し、必要なトレーニング データを正確に特定し、既存のデータをマイニングするか、必要なデータを合成生成することによって、モデルの精度目標を自律的に達成します。
合成データ生成のためのエージェント スキルで、トレーニング データの課題を解決。
トレーニング データが限られている場合、開発者は、目視検査向けの合成欠陥データを迅速に生成したり、天候や照明などさまざまなシナリオに対応した動画の拡張を行うことができます。
クイック リンク
FAQ
はい。Codex や Claude などのコーディング エージェントと VSS スキルを使用することで、簡単な自然言語プロンプトから映像解析 AI エージェントをより迅速に構築できるようになりました。GitHub で VSS スキルのスイートをご覧ください。
NIM は、クラウド、データ センター、ワークステーションに、高性能な AI モデル推論を安全かつ確実にデプロイできるように設計された、使いやすいマイクロサービス群です。オープンソース コミュニティや NVIDIA AI 基盤モデルを含む幅広い AI モデルをサポートし、業界標準の API を使用して、オンプレミス環境でもクラウド環境でも、シームレスで拡張可能な AI 推論をを実現します。すべての NIM マイクロサービスと関連するプレビュー API は、build.nvidia.com で利用可能です。
build.nvidia.com にアクセスして、NVIDIA Metropolis VSS Blueprint と、NVIDIA Cosmos Reason 2 VLM NIM などの利用可能な NIM マイクロサービスの探索をしてみましょう。Cosmos 3 NIM は、近日公開予定です。
すべてのお客様が、 build.nvidia.com でプレビュー API を使用して無料で始めることができます。 新規アカウントには、API を試すために最大 5,000 クレジットが付与されます。クレジットを使い切った後も開発を続けるには、ダウンロード可能な NIM マイクロサービスをハードウェアまたはクラウド インスタンスにローカルでデプロイすることができます。 開発者の方でしたら、NVIDIA 開発者プログラムを通じて NIM にアクセスすることもできます。 詳細はこの FAQ をご覧ください。
開発者の方なら、NVIDIA NIM を無料でお試しいただけます。本番環境で利用するには、ダウンロード可能な NIM マイクロサービスに NVIDIA AI Enterprise ライセンスが必要です。詳細については、こちらのページをご覧ください。
NIM 開発者フォーラムは、質問をしたり、開発者コミュニティと交流するのに最適な場所です。 フォーラムにはこちらからアクセスできます。
複数の視覚言語モデルを活用したリファレンス ワークフローを使用すれば、映像解析 AI エージェントを簡単に構築することができます。
VSS Blueprint のパワーを活用すれば、エッジからクラウドまで AI エージェントをシームレスにデプロイできます。さらに、多様な GPU 全体でスケーラブルなパフォーマンスを実現します。