NVIDIA Visual Insight Agent (VIA) ワークフロー

ビジョン言語モデルを活用したビジョン AI エージェントの構築

VIA とは?

NVIDIA VIA は、エッジまたはクラウドに展開されているかどうかに関係なく、視覚言語モデル (VLM) を使用して大量のライブまたはアーカイブされた動画と画像を処理できる AI エージェントを構築するためのワークフローのコレクションです。この新世代のビジュアル AI エージェントは、ほぼすべての業界が自然言語を使用して動画から実用的な洞察を要約、検索、抽出するのに役立ちます。

生成 AI でビジョン アプリケーションを変える

最新モデルを活用する

NVIDIA NeMo および NVIDIA TAO を使用したドメイン適応によってモデルの精度を向上させたり、NVIDIA NIM を使用して最新の最先端モデルにシームレスに更新したりできます。

AI エージェントを構築して動画を要約し、ハイライトを見つける

入力の動画時間よりも 100 倍以上高速に処理し、自然言語によるリッチな動画の概要を作成します。

マルチモーダルなインタラクション

生成 AI を活用したマルチモーダル インタラクションを体験し、標準 API を使用してビジネス システムと簡単に統合します。

VIA のデモを見る

例: 倉庫管理

長い動画でも画像でも、自然言語でニュアンスのあるアクティビティの要約を取得できます。

例: スポーツ分析

豊富な対話性を備えたエージェントを構築します。ハイライト リールやユニークなイベントなど、ある種のアクティビティの特定のクリップを見つけるために、詳細な質問や「見せて」といったリクエストをすることができます。

今すぐ始める

早期アクセスに申し込む

動画の要約と検索のための AI エージェントのパワーをご覧ください。

NVIDIA GTC のビジョン AI エージェントに関する講演を見る

ビジョン AI エージェントを利用し、生成 AI と大規模言語モデルを活用する方法を学ぶ