影片分析 AI 代理程式是採用 AI 技術的助理,可根據即時或錄製的影片串流觀看、推理並採取行動。這類代理程式使用視覺語言模型與大型語言模型,並透過自然語言搜尋、摘要及理解影像內容。
工作負載
電腦視覺 / 影像分析
產業別
製造業
智慧城市 / 空間
零售 / 消費包裝商品
媒體與娛樂
醫療照護與生命科學
業務目標
投資報酬
創新
概覽
傳統的影像分析應用和其開發工作流程通常建立在固定功能的有限模型之上,這些模型設計僅可查看和辨識一組特定的預先定義物件。透過生成式 AI 和基礎模型,您可以用更少的模型來開發應用程式,而這些模型將具備極複雜且廣泛的感知功能和豐富的情境理解能力。這款新一代視覺語言模型 (VLM) 包含 NVIDIA Cosmos™ 等模型,正在催生智慧且強大的影像分析 AI 代理程式。
影像分析 AI 代理程式可透過結合視覺與語言模態,理解應用於錄製或直播影片串流的各種自然語言問題或提示,藉此觀察、推理並採取行動。深入瞭解影像內容,生成更加準確且有意義的判讀,提升影像分析應用的功能以及實際情境的解讀能力。這些代理程式可望能解鎖全新的自動化發展前景和可能性。
高感知、準確的互動式影像分析 AI 代理將可以部署在工廠、倉庫、零售商店、機場和交通路口等各處。這將為營運團隊帶來深遠影響,讓他們能透過自然互動所產生的更豐富洞察,打造更安全的環境,並做出更明智的決策。管理者和營運團隊將與使用自然語言的 AI 代理進行交流,這些 AI 均透過生成式 AI 和視覺語言模型提供支援,核心則採用 NVIDIA NIM™ 微服務。
快速連結
技術執行
每個影像分析 AI 代理程式內部的大腦都是 VLM,能釐清並推理各項資料。兩種常見的 VLM 便是 NVIDIA Cosmos 3 與 Cosmos Embed。兩者皆可透過豐富的中繼資料與內容摘要,強化現有的電腦視覺應用程式。
NVIDIA NIM 是一套加速推論微服務,已為 NVIDIA GPU 最佳化,包括業界標準 API、特定領域的程式碼、最佳化推論引擎與企業執行階段。該項服務提供 VLM、大型語言模型 (LLM) 以及檢索增強生成 (RAG) 的組合,用於建立影像分析 AI 代理程式,可處理即時或封存的圖片或影片,並利用自然語言擷取可執行的深入解析。我們已建立影像分析人工智慧代理的參考工作流程,您可以進行試用,加速您的開發流程。
快速連結
用於影像搜尋與摘要 (VSS) 的 NVIDIA Metropolis Blueprint 可讓您利用生成式 AI、VLM、LLM、RAG 與 NVIDIA NIM,輕鬆建立並自訂影像分析 AI 代理程式。影像分析 AI 代理透過自然語言取得任務後,可分析、解讀及處理大量影像資料,提供關鍵的深入解析,協助各產業將流程最佳化、提升安全性並降低成本。
VSS 提供模組化元件,可實現高彈性、加速微服務,支援即時影像智慧、跨多種嵌入式的代理式融合搜尋,以及全方位的報告生成能力。此外,此項服務亦提供代理技能與工具,方便開發人員以簡單的自然語言提示與編碼代理程式,打造影像分析 AI 代理程式。
VSS 還可將生成式 AI 無縫整合至現有電腦視覺流程,透過多模態理解與零樣本推理功能強化檢查、搜尋與分析功能。VSS 可在 NVIDIA RTX™ 4500、NVIDIA RTX PRO™ 6000、NVIDIA DGX Spark™ 與 NVIDIA® Jetson Thor™ 等平台上輕鬆部署,從邊緣到雲端皆不成問題。
快速連結
為影像分析 AI 代理程式自訂模型的傳統方法是線性且緩慢的——蒐集影片、標記畫面、訓練、評估、重複——且每一步都需要人工參與並耗時數月,才能達到可接受的準確度。現代化方法打破了這個循環,讓程式碼代理程式能根據目標迭代提升 VLM 與視覺基礎模型的效能。
利用 NVIDIA TAO 代理技能微調視覺語言模型。
NVIDIA TAO 是一套代理技能與工具,用於透過自然語言提示微調視覺 AI 模型。程式碼代理程式會利用這些工具與技能,透過迭代評估模型準確度、釐清所需的精確訓練資料,並挖掘現有資料或合成生成所需資料,自主達成模型準確度目標。
善用合成資料生成的代理技能,克服訓練資料挑戰。
在訓練資料有限時,開發人員可快速生成合成缺陷資料,用於視覺檢查或增強天氣、照明等不同情境的影像。
快速連結
常見問題
可以,您現在能透過簡單的自然語言提示,使用 VSS 技能以及 Codex 與 Claude 等程式碼代理程式,更快速地建置影像分析 AI 代理程式。不妨前往 github,探索 VSS 技能套件。
NIM 這套微服務易於使用,本身的設計可跨雲端、資料中心和工作站,並以安全可靠的方式部署高效能 AI 模型推論。這套微服務可支援各種 AI 模型,包括開放原始碼的社群和 NVIDIA AI 基礎模型,並且使用業界標準的 API 確保在本機或雲端進行流暢且可擴充的 AI 推論。所有 NIM 微服務與 API 預覽的相關資訊,請前往 build.nvidia.com 查詢。
請至 build.nvidia.com,開始探索 NVIDIA Metropolis VSS Blueprint 以及可用的 NIM 微服務,例如 NVIDIA Cosmos Reason 2 VLM NIM。Cosmos 3 NIM 即將推出。
所有使用者均可免費在 build.nvidia.com 上預覽 API。每個新帳號可收到最多 5,000 點積分,來試用 API。積分用完後,如需繼續開發,您可在本機硬體或個別雲端上,部署可下載的 NIM 微服務。開發人員也可透過 NVIDIA 開發人員計畫存取 NIM。請參閱此常見問題獲得更多詳細資訊。
NVIDIA NIM 可供開發人員免費試用。如要投入生產,可下載的 NIM 微服務須有 NVIDIA AI Enterprise 授權。若要深入瞭解,請造訪此頁面。
NIM 開發人員論壇是提出問題和與我們的開發人員社群互相交流的最佳場所。您可以在此處進入論壇。
探索由多個視覺語言模型支援的參考工作流程,輕鬆打造出您的視覺 AI 代理。