映像解析 AI エージェント

映像解析 AI エージェントは、ライブまたは録画された動画のストリームを基に、見て、論理的に推論し、行動できる AI 搭載のアシスタントです。視覚言語モデルと大規模言語モデルを活用して、自然言語による動画の検索、要約、理解を支援します。

ビジョン AI の詳細を見る

概要
技術的な実装
FAQ
今すぐ始める
関連情報
AI エージェントのデプロイ
顧客事例

概要
技術的な実装
FAQ
今すぐ始める
関連情報
AI エージェントのデプロイ
顧客事例

ビジョン AI の詳細を見る

ワークロード

コンピュータービジョン / 映像解析

業種

製造
スマートシティ/空間
小売/消費財
メディアとエンターテインメント
ヘルスケアとライフサイエンス

事業目標

投資収益率
イノベーション

製品

概要

AI エージェントは従来の映像解析をどのように改善するのか?

従来の映像解析アプリケーションとその開発ワークフローは、通常、固定機能の限定的なモデルに基づいて構築されており、事前に定義された特定のオブジェクトのみを検出または識別するように設計されています。しかし、生成 AI と基盤モデルが登場したことで、より少ないモデルを使用して、非常に複雑で広範な認識能力と豊かなコンテキスト理解能力を兼ね備えたアプリケーションを構築できるようになりました。NVIDIA Cosmos™ をはじめとするこの新世代の視覚言語モデル (VLM: Vision Language Models) は、スマートで強力な映像解析 AI エージェントを生み出しています。

映像分析 AI エージェントとは？

映像解析 AI エージェントは、視覚と言語のモダリティを組み合わせることで、録画済みまたはライブの映像ストリームに適用される幅広い自然言語の質問やプロンプトを理解し、見て、推論し、行動することができます。動画コンテンツに対するこのような深い理解により、より正確で意味のある解釈が可能になり、映像解析アプリケーションの機能性や実世界のシナリオの分析が向上します。これらのエージェントは、自動化のための全く新しい洞察と可能性をを切り開くことが期待されています。

映像解析 AI エージェントは、どこに導入されているのか?

高度な知覚能力、正確性、インタラクティブ性を備えた映像解析 AI エージェントは、工場、倉庫、小売店、空港、交通の交差点など、さまざまな場所に展開されます。これは、自然なやりとりから生成されたより豊かなインサイトを活用して、より安全な空間を作り、より優れた意思決定を行おうとしている運用チームに、多大な影響を与えるでしょう。管理者や運用チームは、これらのエージェントと自然言語でコミュニケーションを取ることができ、これらはすべて、NVIDIA NIM™ マイクロサービスを中核とする生成 AI と VLM によって実現されます。

映像解析 AI エージェントを構築する

複数の視覚言語モデルを活用したリファレンスワークフローを使用すれば、映像解析エージェントを簡単に構築することができます。

AI Blueprint の詳細を見る

クイックリンク

NVIDIA Factory Operations Blueprint が工場に新たな AI の頭脳をもたらす

エージェント型 AI をコンピュータービジョンアプリケーションに導入する 3 つの方法

NVIDIA、T-Mobile、パートナー企業が、AI-RAN 対応のインフラ上にフィジカル AI アプリケーションを統合

動画を見る: デジタルツインとエージェント型 AI によるスマートシティの構築

関連記事を読む: 高雄市が Vision AI を活用して都市の運用を最適化

技術的実装

NVIDIA Cosmos で開発

あらゆる映像解析 AI エージェントの中核にある頭脳は、視覚と推論能力を備えた VLM です。代表的な VLM として、NVIDIA Cosmos 3 と Cosmos Embed の 2 つがあります。どちらも、豊富なメタデータとコンテンツの要約によって、既存のコンピュータービジョンアプリケーションを拡張するために使用できます。

NVIDIA NIM は、NVIDIA GPU 向けに最適化された一連の高速推論マイクロサービスであり、業界標準の API、ドメイン固有のコード、最適化された推論エンジン、エンタープライズランタイムが含まれています。NIM は、VLM、大規模言語モデル (LLM)、検索拡張生成 (RAG) を組み合わせることで、ライブまたはアーカイブされた画像や動画を処理し、自然言語を使用して実用的なインサイトを抽出できる映像解析 AI エージェントを構築できます。 NVIDIA は、開発プロセスを加速するために試せる、映像解析 AI エージェントのリファレンスワークフローを作成しました。

クイックリンク

NVIDIA Cosmos NIM をダウンロード

Cosmos Cookbook の詳細を見る

Cosmos 3 の徹底解説

映像解析 AI エージェントリファレンスワークフローを試す

NVIDIA Metropolis VSS Blueprint とスキルで AI エージェントを構築

動画検索と要約 (VSS: Video Search and Summarization) のための NVIDIA Metropolis Blueprint により、生成 AI、VLM、LLM、RAG、NVIDIA NIM を活用した映像解析 AI エージェントを簡単に構築し、カスタマイズすることができます。映像解析 AI エージェントは自然言語を通じてタスクを与えられ、膨大な量の動画データを分析、解釈、処理して、さまざまな産業がプロセスの最適化、安全性の向上、コスト削減を実現するのに役立つ重要なインサイトを提供します。

VSS は、高い柔軟性を実現するモジュール化されたコンポーネント、リアルタイムの映像インテリジェンスをサポートする高速マイクロサービス、多様な埋め込みにわたるエージェント型融合検索、包括的なレポート生成機能を提供します。さらに、開発者が簡単な自然言語プロンプトとコーディングエージェントを使用して映像解析 AI エージェントを構築できる、エージェントスキルとツールも提供します。

また、VSS は、生成 AI を既存のコンピュータービジョンパイプラインにシームレスに統合することもでき、マルチモーダルな理解とゼロショット推論によって検査、検索、分析が強化されます。VSS は、NVIDIA RTX™ 4500、NVIDIA RTX PRO™ 6000、NVIDIA DGX Spark™、NVIDIA® Jetson Thor™ などのプラットフォーム上で、エッジからクラウドまで簡単にデプロイできます。

クイックリンク

VSS スキルを試す

Launchable を使用してクラウドで Blueprint を試す

チュートリアルを見る: NVIDIA VSS スキルと NemoClaw を活用した動画検索 AI エージェントの構築方法

ブログを読む: NVIDIA Metropolis VSS Blueprint で数時間に及ぶ動画を検索可能なインサイトに変える

録画を見る: Skills を使用して映像解析 AI エージェントを構築する

ブログを読む: コンピュータービジョンパイプラインと生成 AI および推論を統合する方法

動画を見る: VLM でアラートに関するコンテキストに裏付けられたインサイトを得る

モデルのファインチューニング、合成データ生成、エージェントスキルで精度を向上

映像解析 AI エージェント向けにモデルをカスタマイズする従来のアプローチは、動画の収集、フレームのラベル付け、トレーニング、評価、繰り返しというサイクルを辿り、あらゆるステップで人間が関与し、許容可能な精度に達するまでに数か月を要する、直線的で時間のかかるものでした。最新のアプローチでは、コーディングエージェントが目標に基づいて VLM とビジョン基盤モデルのパフォーマンスを反復的に向上させることで、この悪循環を打破します。

NVIDIA TAO エージェントスキルで視覚言語モデルをファインチューニング。

NVIDIA TAO は、自然言語プロンプトを使用して、ビジョン AI モデルをファインチューニングするための一連のエージェントスキルとツールです。コーディングエージェントはこれらのツールとスキルを使用して、モデルの精度を繰り返し評価し、必要なトレーニングデータを正確に特定し、既存のデータをマイニングするか、必要なデータを合成生成することによって、モデルの精度目標を自律的に達成します。

合成データ生成のためのエージェントスキルで、トレーニングデータの課題を解決。

トレーニングデータが限られている場合、開発者は、目視検査向けの合成欠陥データを迅速に生成したり、天候や照明などさまざまなシナリオに対応した動画の拡張を行うことができます。

クイックリンク

NVIDIA TAO スキルを試す

欠陥画像生成のためのエージェントスキルを試す

動画拡張のためのエージェントスキルを試す

Jetson Platform Services でエッジエージェントを構築する

NVIDIA JetPack™ の最新機能である Jetson Platform Services を使用して、NVIDIA Jetson™ エッジ AI プラットフォームを搭載した映像解析 AI エージェントを構築できます。この生成 AI アプリケーションは、イベントを検出してアラートを生成し、インタラクティブな Q&A セッションを実現できる NVIDIA Jetson Orin™ デバイス上で完全に動作します。

クイックリンク

Jetson のリファレンスワークフローをダウンロード

技術ブログ : エッジのための生成 AI を活用した映像分析 AI エージェントの開発

FAQ

はい。Codex や Claude などのコーディングエージェントと VSS スキルを使用することで、簡単な自然言語プロンプトから映像解析 AI エージェントをより迅速に構築できるようになりました。GitHub で VSS スキルのスイートをご覧ください。

NIM は、クラウド、データセンター、ワークステーションに、高性能な AI モデル推論を安全かつ確実にデプロイできるように設計された、使いやすいマイクロサービス群です。オープンソースコミュニティや NVIDIA AI 基盤モデルを含む幅広い AI モデルをサポートし、業界標準の API を使用して、オンプレミス環境でもクラウド環境でも、シームレスで拡張可能な AI 推論をを実現します。すべての NIM マイクロサービスと関連するプレビュー API は、build.nvidia.com で利用可能です。

build.nvidia.com にアクセスして、NVIDIA Metropolis VSS Blueprint と、NVIDIA Cosmos Reason 2 VLM NIM などの利用可能な NIM マイクロサービスの探索をしてみましょう。Cosmos 3 NIM は、近日公開予定です。

すべてのお客様が、 build.nvidia.com でプレビュー API を使用して無料で始めることができます。新規アカウントには、API を試すために最大 5,000 クレジットが付与されます。クレジットを使い切った後も開発を続けるには、ダウンロード可能な NIM マイクロサービスをハードウェアまたはクラウドインスタンスにローカルでデプロイすることができます。開発者の方でしたら、NVIDIA 開発者プログラムを通じて NIM にアクセスすることもできます。詳細はこの FAQ をご覧ください。

開発者の方なら、NVIDIA NIM を無料でお試しいただけます。本番環境で利用するには、ダウンロード可能な NIM マイクロサービスに NVIDIA AI Enterprise ライセンスが必要です。詳細については、こちらのページをご覧ください。

NIM 開発者フォーラムは、質問をしたり、開発者コミュニティと交流するのに最適な場所です。フォーラムにはこちらからアクセスできます。

今すぐ始める

映像解析 AI エージェントを構築する

複数の視覚言語モデルを活用したリファレンスワークフローを使用すれば、映像解析 AI エージェントを簡単に構築することができます。

ビジョン言語モデルを試す

VSS Blueprint を探索する

開発者ガイド: 映像解析 AI エージェントの構築

技術ブログ
GTC オンデマンド動画

AI エージェントにより、数時間に及ぶ動画を検索可能なインサイトに変換

リアルタイムのインテリジェンスアラートとエージェント検索を実現する VSS スキルを使用して、動画エージェントをデプロイする方法を学びましょう。

ブログを読む

高度な映像解析 AI エージェントの構築

動画検索と要約 (VSS) 向けの NVIDIA AI Blueprint を活用して、映像解析 AI エージェントをシームレスに構築する方法を学びます。

ブログを読むパート 1 ブログを読むパート 2

生成 AI でコンピュータービジョンパイプラインを拡張

イベント検証、Cosmos Reason との統合、ハードウェアサポートの拡大など、最新の VSS 2.4 の新機能をご覧ください。

ブログを読む

エージェント型動画ワークフローの構築

音声入力、動画検索の音声出力、要約に対応したワークフローを構築する方法を学びましょう。

ブログを読む

リアルタイムマルチモーダル XR アプリの構築

XR 環境で動画の検索と要約に NVIDIA AI Blueprint を活用し、オーディオをサポートする方法をご覧ください。

ブログを読む

すべての VLM 技術ブログを見る

GTC のオンデマンド動画をすべて見る

エッジからクラウドまで AI エージェントをデプロイ

VSS Blueprint のパワーを活用すれば、エッジからクラウドまで AI エージェントをシームレスにデプロイできます。さらに、多様な GPU 全体でスケーラブルなパフォーマンスを実現します。

NVIDIA RTX PRO 6000 Blackwell シリーズ GPU

NVIDIA RTX PRO 6000 Blackwell シリーズ GPU は、トレーニング、合成データ生成、ロボット学習、シミュレーションにわたるすべてのロボット開発ワークロードを実行することでフィジカル AI を高速化します。

RTX PRO 6000 の詳細を見る

NVIDIA Jetson Thor

最大 2070 FP4 TFLOPS の AI 演算性能と 128 GB のメモリをすべてコンパクトなフォームファクターで実現する NVIDIA Jetson Thor™ シリーズモジュールにより、フィジカル AI とロボティクスの未来を加速しましょう。

Jetson Thor の詳細を見る

NVIDIA DGX Spark

NVIDIA DGX Spark は NVIDIA Grace Blackwell の卓越した性能を開発者のデスクトップにもたらします。 NVIDIA GB10 Superchip を、128 GB の統合システムメモリと組み合わせることで、AI 研究者、データサイエンティスト、学生は、最大 2,000 億パラメーターの AI モデルをローカルで操作できるようにします。

DGX Spark の詳細を見る

映像解析 AI エージェント

AI エージェントは従来の映像解析をどのように改善するのか?

映像分析 AI エージェントとは？

映像解析 AI エージェントは、どこに導入されているのか?

映像解析 AI エージェントを構築する

NVIDIA Cosmos で開発

NVIDIA Metropolis VSS Blueprint とスキルで AI エージェントを構築

モデルのファインチューニング、合成データ生成、エージェント スキルで精度を向上

Jetson Platform Services でエッジエージェントを構築する

スキルを使って映像解析 AI エージェントを構築できますか?

NIM マイクロサービスとは?

VLM と NVIDIA Metropolis VSS Blueprint を使うには?

build.nvidia.com のクレジットを得るにはどうすればよいですか?

ダウンロード可能な NIM を使用するには料金を支払う必要がありますか?

NIM マイクロサービスでプロトタイピングを行う際に、どのように技術サポートを得ることができますか?

今すぐ始める

映像解析 AI エージェントを構築する

開発者ガイド: 映像解析 AI エージェントの構築

AI エージェントにより、数時間に及ぶ動画を検索可能なインサイトに変換

高度な映像解析 AI エージェントの構築

生成 AI でコンピューター ビジョン パイプラインを拡張

エージェント型動画ワークフローの構築

リアルタイム マルチモーダル XR アプリの構築

エッジからクラウドまで AI エージェントをデプロイ

NVIDIA RTX PRO 6000 Blackwell シリーズ GPU

NVIDIA Jetson Thor

NVIDIA DGX Spark

関連する成功事例

モデルのファインチューニング、合成データ生成、エージェントスキルで精度を向上

生成 AI でコンピュータービジョンパイプラインを拡張

リアルタイムマルチモーダル XR アプリの構築