비디오 분석 AI 에이전트는 라이브 또는 녹화된 비디오 스트림을 보고, 추론하고, 행동할 수 있는 AI 기반 어시스턴트입니다. 비전 언어 모델과 거대 언어 모델(LLM)을 사용하여 자연어를 통해 비디오를 검색, 요약, 이해할 수 있습니다.
워크로드
컴퓨터 비전 / 비디오 분석
산업
제조
스마트 시티/공간
소매/소비재 패키지 상품
미디어 및 엔터테인먼트
헬스케어 및 생명과학
비즈니스 목표
투자 수익률
혁신
개요
기존의 영상 분석 애플리케이션과 해당 개발 워크플로우는 일반적으로 고정된 기능의 제한된 모델을 기반으로 구축되며, 일부 사전 정의된 물체만 확인하고 식별할 수 있도록 설계되었습니다. 생성형 AI와 파운데이션 모델을 사용하면 매우 복잡하고 광범위한 인식과 풍부한 상황 이해를 갖춘 모델을 더 적게 사용해 애플리케이션을 구축할 수 있습니다. NVIDIA Cosmos™와 같은 이 새로운 세대의 비전 언어 모델(VLM)은 스마트하고 강력한 비디오 분석 AI 에이전트의 발전을 촉진하고 있습니다.
비디오 분석 AI 에이전트는 비전과 언어 양식을 결합하여 기록된 비디오 스트림이나 라이브 비디오 스트림에 적용된 광범위한 자연어 질문이나 프롬프트를 이해하여 보고, 추론하고, 행동할 수 있습니다. 이렇게 비디오 콘텐츠를 심층적으로 이해하면 더 정확하고 의미 있는 해석이 가능하기에 비디오 분석 애플리케이션의 기능과 실제 시나리오 분석을 개선할 수 있습니다. 이러한 에이전트는 자동화에 대한 완전히 새로운 인사이트와 가능성을 열어줄 것으로 기대하고 있습니다.
뛰어난 인식 능력과 정확성을 갖춘 상호작용형 비디오 분석 AI 에이전트는 공장, 창고, 소매점, 공항, 교차로 등에 배치될 것입니다. 이는 자연스러운 상호작용에서 생성된 더 풍부한 인사이트를 사용하여 더 안전한 공간을 만들고 더 나은 의사결정을 내리려는 운영팀에 엄청난 영향을 미칠 것입니다. 관리자와 운영 팀은 또한 이러한 에이전트와 자연어로 소통할 수 있게 되며, 모두 NVIDIA NIM™ 마이크로서비스를 핵심으로 하는 생성형 AI와 VLM에 의해 구동됩니다.
바로가기
기술적 구현
모든 비디오 분석 AI 에이전트 내부의 두뇌는 보고 추론할 수 있는 VLM입니다. 두 가지 일반적인 VLM은 NVIDIA Cosmos 3와 Cosmos Embed입니다. 두 가지 모두 풍부한 메타데이터와 콘텐츠 요약을 통해 현재의 컴퓨터 비전 애플리케이션을 보강하는 데 사용할 수 있습니다.
NVIDIA NIM은 NVIDIA GPU에 최적화된 가속화된 추론 마이크로서비스의 집합으로, 업계 표준 API, 도메인별 코드, 최적화된 추론 엔진, 엔터프라이즈 런타임을 포함합니다. 이는 라이브 또는 보관된 이미지 또는 비디오를 처리하여 자연어로 실행 가능한 인사이트를 추출할 수 있는 비디오 분석 AI 에이전트를 구축하기 위한 VLM, 거대 언어 모델(LLM) 및 검색 증강 생성(RAG)의 조합을 제공합니다. 개발 프로세스를 가속화하기 위해 시도해 볼 수 있는 비디오 분석 AI 에이전트의 레퍼런스 워크플로우를 만들었습니다.
바로가기
비디오 검색 및 요약(VSS)을 위한 NVIDIA Metropolis Blueprint는 생성형 AI, VLM, LLM, RAG, NVIDIA NIM을 활용한 비디오 분석 AI 에이전트를 쉽게 구축하고 맞춤화할 수 있도록 지원합니다. 영상 분석 AI 에이전트는 자연어를 통해 작업을 수행하며, 방대한 양의 영상 데이터를 분석, 해석 및 처리하여 다양한 산업에서 프로세스를 최적화하고, 안전성을 개선하며, 비용을 절감하는 데 도움이 되는 중요한 인사이트를 제공할 수 있습니다.
VSS는 높은 유연성을 제공하는 모듈화된 구성 요소, 실시간 비디오 인텔리전스를 지원하는 가속화된 마이크로서비스, 다양한 임베딩 전반의 에이전틱 융합 검색, 그리고 포괄적인 보고서 생성 기능을 제공합니다. 또한 개발자가 간단한 자연어 프롬프트와 코딩 에이전트를 통해 비디오 분석 AI 에이전트를 구축할 수 있는 에이전트 기술과 도구를 제공합니다.
또한 VSS는 생성형 AI를 기존 컴퓨터 비전 파이프라인에 원활하게 통합하여 멀티모달 이해와 제로샷 추론을 통한 검사, 검색 및 분석을 향상시킬 수 있습니다. VSS는 NVIDIA RTX™ 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ 및 NVIDIA® Jetson Thor™ 등 다양한 플랫폼에서 엣지부터 클라우드까지 쉽게 배포할 수 있습니다.
바로가기
비디오 분석 AI 에이전트를 위한 모델을 맞춤화하는 기존 접근 방식은 비디오 수집, 프레임 레이블 지정, 학습, 평가, 반복의 과정을 거치는 선형적이고 느린 방식이었으며, 모든 단계에 사람이 개입해야 했고 허용 가능한 정확도에 도달하기까지 수개월이 걸렸습니다. 현대적인 접근 방식은 코딩 에이전트가 설정된 목표를 기반으로 VLM 및 비전 파운데이션 모델의 성능을 반복적으로 향상시킬 수 있도록 지원함으로써 이러한 주기를 깨뜨립니다.
NVIDIA TAO 에이전트 스킬로 비전 언어 모델을 파인튜닝하세요.
NVIDIA TAO는 자연어 프롬프트로 비전 AI 모델을 미세 조정하기 위한 에이전트 스킬과 도구 제품군입니다. 코딩 에이전트는 이러한 도구와 기술을 사용하여 모델 정확도를 반복적으로 평가하고, 필요한 정밀한 학습 데이터를 결정하며, 기존 데이터를 마이닝하거나 필요한 데이터를 합성적으로 생성하여 모델 정확도 목표를 자율적으로 달성합니다.
합성 데이터 생성을 위한 에이전트 기술로 학습 데이터 문제를 해결하세요.
학습 데이터가 제한된 경우, 개발자는 육안 검사용 합성 결함 데이터를 신속하게 생성하거나 날씨, 조명 등과 같은 다양한 시나리오에 맞춰 영상을 증강할 수 있습니다.
바로가기
FAQ
네, 이제 Codex 및 Claude와 같은 코딩 에이전트와 함께 VSS 스킬을 활용하여 간단한 자연어 프롬프트로부터 비디오 분석 AI 에이전트를 더 빠르게 구축할 수 있습니다. github에서 VSS 기술 제품군을 살펴보세요.
NIM은 클라우드, 데이터 센터 및 워크스테이션에 걸쳐 고성능 AI 모델 추론을 안전하고 안정적으로 배포하도록 설계된 사용하기 쉬운 마이크로서비스 세트입니다. 이는 오픈소스 커뮤니티와 NVIDIA AI 파운데이션 모델을 포함한 다양한 AI 모델을 지원하여 온프레미스 또는 클라우드에서 업계 표준 API를 사용하여 원활하고 확장 가능한 AI 추론을 보장합니다. 모든 NIM 마이크로서비스 및 관련 미리보기 API는 build.nvidia.com에서 확인할 수 있습니다.
build.nvidia.com을 방문하여 NVIDIA Metropolis VSS Blueprint와 NVIDIA Cosmos Reason 2 VLM NIM과 같은 사용 가능한 NIM 마이크로서비스를 살펴보세요. Cosmos 3 NIM이 곧 출시됩니다.
모든 사용자는 build.nvidia.com의 미리보기 API를 사용해 무료로 시작할 수 있습니다. 각 신규 계정은 API를 사용해 볼 수 있도록 최대 5,000개의 크레딧을 받을 수 있습니다. 크레딧이 소진된 후에도 개발을 계속하려면 다운로드 가능한 NIM 마이크로서비스를 하드웨어 또는 클라우드 인스턴스에 로컬로 배포할 수 있습니다. 개발자는 NVIDIA 개발자 프로그램을 통해 NIM에 액세스할 수도 있습니다. 자세한 내용은 이 FAQ에서 확인해 보세요.
NVIDIA NIM은 개발자가 무료로 사용해 볼 수 있습니다. 프로덕션으로 전환하려면 다운로드 가능한 NIM 마이크로서비스에 NVIDIA AI 엔터프라이즈 라이선스가 필요합니다. 자세히 알아보려면 이 페이지를 방문하세요.
NIM 개발자 포럼은 개발자 커뮤니티에 질문하고 참여할 수 있는 최고의 장소입니다. 여기에서 포럼에 액세스할 수 있습니다.
시각적 언어 모델로 구동되는 참조 워크플로우를 살펴보고 비디오 분석 AI 에이전트를 쉽게 구축하세요.
VSS Blueprint의 강력한 성능을 활용하여 엣지부터 클라우드까지 다양한 GPU에서 성능을 확장할 수 있게 하려면 AI 에이전트를 원활하게 배포하세요.