NVIDIA VIA(Visual Insight Agent) 워크플로우

비전 언어 모델(Vision-Language Models) 기반의 비전 AI 에이전트 구축하기

VIA의 정의

NVIDIA VIA는 엣지 또는 클라우드에 배포되는지 여부에 관계없이 VLM(Vision-Language Models)로 대량의 라이브 또는 보관된 비디오와 이미지를 처리할 수 있는 AI 에이전트를 구축하기 위한 워크플로우 모음입니다. 이 차세대 시각 AI 에이전트는 거의 모든 산업 분야에서 자연어를 사용함으로써 비디오에서 실행 가능한 인사이트를 요약, 검색 및 추출할 수 있습니다.

생성형 AI로 비전 애플리케이션 혁신

최신 모델 활용하기

NVIDIA NeMoNVIDIA TAO를 사용하여 도메인 적응을 통해 모델 정확도를 개선하거나 NVIDIA NIM을 통해 최신 모델로 원활하게 업데이트하세요.

비디오를 요약하고 하이라이트를 찾아내는 AI 에이전트 구축하기

입력 비디오 시간보다 100배 이상 빠르게 처리하여 자연어로 이루어진 풍부한 비디오 요약을 제공합니다.

멀티모달 인터랙션

생성형 AI 기반의 멀티모달 인터랙션을 경험하고 표준 API를 사용하여 비즈니스 시스템과 쉽게 통합할 수 있습니다.

VIA 활용 사례 보기

예시: 창고 관리

긴 동영상이나 이미지에서 미묘한 차이를 지닌 내용에 대한 자연어로 구성된 풍부한 요약을 얻을 수 있습니다.

 

예시: 스포츠 분석

다채로운 대화형 기능을 갖춘 에이전트를 구축하세요. 자세한 질문을 하고 하이라이트 영상이나 고유한 이벤트 등 특정 활동의 구체적 클립을 찾기 위한 '보여주기' 유형의 요청도 수행할 수 있습니다.

 

시작하기 리소스

얼리 액세스 신청하기

영상 요약 및 검색을 위한 AI 에이전트의 강력한 성능을 알아보세요.

비전 AI 에이전트에 대한 NVIDIA GTC 강연 보기

비전 AI 에이전트를 통해 생성형 AI와 대규모 언어 모델을 활용하는 방법 알아보기