ビジョン言語モデルを活用したビジョン AI エージェントの構築
NVIDIA VIA は、エッジまたはクラウドに展開されているかどうかに関係なく、視覚言語モデル (VLM) を使用して大量のライブまたはアーカイブされた動画と画像を処理できる AI エージェントを構築するためのワークフローのコレクションです。この新世代のビジュアル AI エージェントは、ほぼすべての業界が自然言語を使用して動画から実用的な洞察を要約、検索、抽出するのに役立ちます。
NVIDIA NeMo および NVIDIA TAO を使用したドメイン適応によってモデルの精度を向上させたり、NVIDIA NIM を使用して最新の最先端モデルにシームレスに更新したりできます。
入力の動画時間よりも 100 倍以上高速に処理し、自然言語によるリッチな動画の概要を作成します。
生成 AI を活用したマルチモーダル インタラクションを体験し、標準 API を使用してビジネス システムと簡単に統合します。
長い動画でも画像でも、自然言語でニュアンスのあるアクティビティの要約を取得できます。
豊富な対話性を備えたエージェントを構築します。ハイライト リールやユニークなイベントなど、ある種のアクティビティの特定のクリップを見つけるために、詳細な質問や「見せて」といったリクエストをすることができます。
動画の要約と検索のための AI エージェントのパワーをご覧ください。
ビジョン AI エージェントを利用し、生成 AI と大規模言語モデルを活用する方法を学ぶ