영상 분석 AI 에이전트

비디오 분석 AI 에이전트는 라이브 또는 녹화된 비디오 스트림을 보고, 추론하고, 행동할 수 있는 AI 기반 어시스턴트입니다. 비전 언어 모델과 거대 언어 모델(LLM)을 사용하여 자연어를 통해 비디오를 검색, 요약, 이해할 수 있습니다.

워크로드

컴퓨터 비전 / 비디오 분석

산업

제조
스마트 시티/공간
소매/소비재 패키지 상품
미디어 및 엔터테인먼트
헬스케어 및 생명과학

비즈니스 목표

투자 수익률
혁신

개요

AI 에이전트는 기존 영상 분석을 어떻게 개선하나요?

기존의 영상 분석 애플리케이션과 해당 개발 워크플로우는 일반적으로 고정된 기능의 제한된 모델을 기반으로 구축되며, 일부 사전 정의된 물체만 확인하고 식별할 수 있도록 설계되었습니다. 생성형 AI와 파운데이션 모델을 사용하면 매우 복잡하고 광범위한 인식과 풍부한 상황 이해를 갖춘 모델을 더 적게 사용해 애플리케이션을 구축할 수 있습니다. NVIDIA Cosmos™와 같은 이 새로운 세대의 비전 언어 모델(VLM)은 스마트하고 강력한 비디오 분석 AI 에이전트의 발전을 촉진하고 있습니다.

비디오 분석 AI 에이전트란?

비디오 분석 AI 에이전트는 비전과 언어 양식을 결합하여 기록된 비디오 스트림이나 라이브 비디오 스트림에 적용된 광범위한 자연어 질문이나 프롬프트를 이해하여 보고, 추론하고, 행동할 수 있습니다. 이렇게 비디오 콘텐츠를 심층적으로 이해하면 더 정확하고 의미 있는 해석이 가능하기에 비디오 분석 애플리케이션의 기능과 실제 시나리오 분석을 개선할 수 있습니다. 이러한 에이전트는 자동화에 대한 완전히 새로운 인사이트와 가능성을 열어줄 것으로 기대하고 있습니다.

비디오 분석 AI 에이전트는 어디에 배포되나요?

뛰어난 인식 능력과 정확성을 갖춘 상호작용형 비디오 분석 AI 에이전트는 공장, 창고, 소매점, 공항, 교차로 등에 배치될 것입니다. 이는 자연스러운 상호작용에서 생성된 더 풍부한 인사이트를 사용하여 더 안전한 공간을 만들고 더 나은 의사결정을 내리려는 운영팀에 엄청난 영향을 미칠 것입니다. 관리자와 운영 팀은 또한 이러한 에이전트와 자연어로 소통할 수 있게 되며, 모두 NVIDIA NIM™ 마이크로서비스를 핵심으로 하는 생성형 AI와 VLM에 의해 구동됩니다.

영상 분석 AI 에이전트 구축

여러 시각 언어 모델을 기반으로 하는 참조 워크플로우를 살펴보고 비디오 분석 에이전트를 쉽게 구축하세요.


기술적 구현

NVIDIA Cosmos로 개발

모든 비디오 분석 AI 에이전트 내부의 두뇌는 보고 추론할 수 있는 VLM입니다. 두 가지 일반적인 VLM은 NVIDIA Cosmos 3Cosmos Embed입니다. 두 가지 모두 풍부한 메타데이터와 콘텐츠 요약을 통해 현재의 컴퓨터 비전 애플리케이션을 보강하는 데 사용할 수 있습니다.  

NVIDIA NIM은 NVIDIA GPU에 최적화된 가속화된 추론 마이크로서비스의 집합으로, 업계 표준 API, 도메인별 코드, 최적화된 추론 엔진, 엔터프라이즈 런타임을 포함합니다. 이는 라이브 또는 보관된 이미지 또는 비디오를 처리하여 자연어로 실행 가능한 인사이트를 추출할 수 있는 비디오 분석 AI 에이전트를 구축하기 위한 VLM, 거대 언어 모델(LLM) 및 검색 증강 생성(RAG)의 조합을 제공합니다. 개발 프로세스를 가속화하기 위해 시도해 볼 수 있는 비디오 분석 AI 에이전트의 레퍼런스 워크플로우를 만들었습니다.

NVIDIA Metropolis VSS Blueprint 및 Skills를 사용하여 AI 에이전트 구축

비디오 검색 및 요약(VSS)을 위한 NVIDIA Metropolis Blueprint는 생성형 AI, VLM, LLM, RAG, NVIDIA NIM을 활용한 비디오 분석 AI 에이전트를 쉽게 구축하고 맞춤화할 수 있도록 지원합니다. 영상 분석 AI 에이전트는 자연어를 통해 작업을 수행하며, 방대한 양의 영상 데이터를 분석, 해석 및 처리하여 다양한 산업에서 프로세스를 최적화하고, 안전성을 개선하며, 비용을 절감하는 데 도움이 되는 중요한 인사이트를 제공할 수 있습니다.

VSS는 높은 유연성을 제공하는 모듈화된 구성 요소, 실시간 비디오 인텔리전스를 지원하는 가속화된 마이크로서비스, 다양한 임베딩 전반의 에이전틱 융합 검색, 그리고 포괄적인 보고서 생성 기능을 제공합니다. 또한 개발자가 간단한 자연어 프롬프트와 코딩 에이전트를 통해 비디오 분석 AI 에이전트를 구축할 수 있는 에이전트 기술과 도구를 제공합니다.

또한 VSS는 생성형 AI를 기존 컴퓨터 비전 파이프라인에 원활하게 통합하여 멀티모달 이해와 제로샷 추론을 통한 검사, 검색 및 분석을 향상시킬 수 있습니다. VSS는 NVIDIA RTX™ 4500, NVIDIA RTX PRO™ 6000, NVIDIA DGX Spark™ 및 NVIDIA® Jetson Thor™ 등 다양한 플랫폼에서 엣지부터 클라우드까지 쉽게 배포할 수 있습니다.

모델 미세 조정, 합성 데이터 생성 에이전트 기술을 통한 정확도 향상

비디오 분석 AI 에이전트를 위한 모델을 맞춤화하는 기존 접근 방식은 비디오 수집, 프레임 레이블 지정, 학습, 평가, 반복의 과정을 거치는 선형적이고 느린 방식이었으며, 모든 단계에 사람이 개입해야 했고 허용 가능한 정확도에 도달하기까지 수개월이 걸렸습니다. 현대적인 접근 방식은 코딩 에이전트가 설정된 목표를 기반으로 VLM 및 비전 파운데이션 모델의 성능을 반복적으로 향상시킬 수 있도록 지원함으로써 이러한 주기를 깨뜨립니다.

NVIDIA TAO 에이전트 스킬로 비전 언어 모델을 파인튜닝하세요. 

NVIDIA TAO는 자연어 프롬프트로 비전 AI 모델을 미세 조정하기 위한 에이전트 스킬과 도구 제품군입니다. 코딩 에이전트는 이러한 도구와 기술을 사용하여 모델 정확도를 반복적으로 평가하고, 필요한 정밀한 학습 데이터를 결정하며, 기존 데이터를 마이닝하거나 필요한 데이터를 합성적으로 생성하여 모델 정확도 목표를 자율적으로 달성합니다.

합성 데이터 생성을 위한 에이전트 기술로 학습 데이터 문제를 해결하세요.

학습 데이터가 제한된 경우, 개발자는 육안 검사용 합성 결함 데이터를 신속하게 생성하거나 날씨, 조명 등과 같은 다양한 시나리오에 맞춰 영상을 증강할 수 있습니다.

Jetson Platform Services를 사용해 엣지 에이전트 구축

NVIDIA JetPack™의 최신 기능인 Jetson 플랫폼으로 구동되는 비디오 분석 AI 에이전트를 구축할 수 있습니다. 생성형 AI 애플리케이션은 이벤트를 감지하여 경고를 생성하고 대화형 Q&A 세션을 가능하게 만드는 NVIDIA Jetson Orin™ 장치에서 완전히 실행됩니다.


FAQ

네, 이제 Codex 및 Claude와 같은 코딩 에이전트와 함께 VSS 스킬을 활용하여 간단한 자연어 프롬프트로부터 비디오 분석 AI 에이전트를 더 빠르게 구축할 수 있습니다. github에서 VSS 기술 제품군을 살펴보세요. 

NIM은 클라우드, 데이터 센터 및 워크스테이션에 걸쳐 고성능 AI 모델 추론을 안전하고 안정적으로 배포하도록 설계된 사용하기 쉬운 마이크로서비스 세트입니다. 이는 오픈소스 커뮤니티와 NVIDIA AI 파운데이션 모델을 포함한 다양한 AI 모델을 지원하여 온프레미스 또는 클라우드에서 업계 표준 API를 사용하여 원활하고 확장 가능한 AI 추론을 보장합니다. 모든 NIM 마이크로서비스 및 관련 미리보기 API는 build.nvidia.com에서 확인할 수 있습니다.

build.nvidia.com을 방문하여 NVIDIA Metropolis VSS BlueprintNVIDIA Cosmos Reason 2 VLM NIM과 같은 사용 가능한 NIM 마이크로서비스를 살펴보세요. Cosmos 3 NIM이 곧 출시됩니다. 

모든 사용자는 build.nvidia.com의 미리보기 API를 사용해 무료로 시작할 수 있습니다. 각 신규 계정은 API를 사용해 볼 수 있도록 최대 5,000개의 크레딧을 받을 수 있습니다. 크레딧이 소진된 후에도 개발을 계속하려면 다운로드 가능한 NIM 마이크로서비스를 하드웨어 또는 클라우드 인스턴스에 로컬로 배포할 수 있습니다. 개발자는 NVIDIA 개발자 프로그램을 통해 NIM에 액세스할 수도 있습니다. 자세한 내용은 이 FAQ에서 확인해 보세요.

NVIDIA NIM은 개발자가 무료로 사용해 볼 수 있습니다. 프로덕션으로 전환하려면 다운로드 가능한 NIM 마이크로서비스에 NVIDIA AI 엔터프라이즈 라이선스가 필요합니다. 자세히 알아보려면 이 페이지를 방문하세요.

NIM 개발자 포럼은 개발자 커뮤니티에 질문하고 참여할 수 있는 최고의 장소입니다. 여기에서 포럼에 액세스할 수 있습니다.

시작하기

영상 분석 AI 에이전트 구축

시각적 언어 모델로 구동되는 참조 워크플로우를 살펴보고 비디오 분석 AI 에이전트를 쉽게 구축하세요.

개발자 가이드: 영상 분석 AI 에이전트 구축

AI 에이전트를 통해 몇 시간 동안 지속된 비디오를 검색 가능한 인사이트로 전환

실시간 인텔리전스 알림과 에이전틱 검색을 위한 VSS 기술을 사용하여 비디오 에이전트를 배포하는 방법을 알아보세요.

고급 비디오 분석 AI 에이전트 구축

비디오 검색 및 요약(VSS)을 위한 NVIDIA AI Blueprint를 사용하여 비디오 분석 AI 에이전트를 원활하게 구축하는 방법을 알아보세요.

생성형 AI를 통해 컴퓨터 비전 파이프라인 강화

이벤트 검증, Cosmos Reason과의 통합, 확장된 하드웨어 지원을 포함한 최신 VSS 2.4의 새로운 기능을 살펴보세요.

에이전틱 비디오 워크플로우 구축

오디오 입력, 비디오 검색을 위한 음성 출력 및 요약을 갖춘 워크플로우를 구축하는 방법을 알아보세요.

실시간 멀티모달 XR 앱 구축

XR 환경에서 오디오를 지원하기 위해 비디오 검색 및 요약에 NVIDIA AI Blueprint를 사용하는 방법을 알아보세요.

엣지에서 클라우드까지 AI 에이전트 배포

VSS Blueprint의 강력한 성능을 활용하여 엣지부터 클라우드까지 다양한 GPU에서 성능을 확장할 수 있게 하려면 AI 에이전트를 원활하게 배포하세요.

NVIDIA RTX PRO 6000 Blackwell 시리즈 GPU

NVIDIA RTX PRO 6000 Blackwell 시리즈 GPU는 훈련, 합성 데이터 생성, 로봇 학습, 시뮬레이션 등 전체에 모든 로봇 개발 워크로드를 실행하여 물리 AI를 가속화합니다.

NVIDIA Jetson Thor

최대 2,070 FP4 TFLOPS의 AI 컴퓨팅과 128GB의 메모리를 컴팩트한 폼 팩터에 모두 담은 NVIDIA Jetson Thor™ 시리즈 모듈로 피지컬 AI와 로보틱스의 미래를 가속화하세요.

NVIDIA DGX Spark

NVIDIA DGX Spark는 개발자 데스크톱에 NVIDIA Grace Blackwell의 강력한 기능을 제공합니다. NVIDIA GB10 슈퍼칩이 128GB의 통합 시스템 메모리와 결합되어 AI 연구원, 데이터 사이언티스트, 학생들은 최대 2,000억 개 매개변수를 가진 AI 모델을 로컬에서 작업할 수 있습니다.

관련 성공 사례