멀티모달 대화형 AI

자동 음성 인식에서 자연어 이해를 비롯해 텍스트-음성 전환에 이르는 전체 파이프라인을 가속화하세요.

음성, 영상 및 언어 분야에서 AI 기반 서비스는 자연스러운 맞춤형 대화를 위한 혁신적인 길을 제시하지만, 실시간 상호작용을 위한 높은 정확도와 저지연 시간에 대한 요구 사항을 마주하게 됩니다. NVIDIA의 대화형 AI 플랫폼을 사용하면 개발자들은 최첨단 AI 서비스를 빠르게 구축 및 배포하여 하나의 통합된 아키텍처 전반에서 애플리케이션을 구동하고, 적은 초기 투자로도 매우 정확하며 지연 시간이 짧은 시스템을 제공할 수 있습니다.

 
최첨단 모델

최첨단 모델

NVIDIA DGX™ 시스템에서 100,000시간 이상의 트레이닝을 거친 NGC™의 대화형 AI 모델을 활용하세요.

맞춤형 멀티모달 기술

맞춤형 멀티모달 기술

음성, 언어 및 영상을 하나의 파이프라인에 쉽게 결합하여 인간과 유사한 인터랙티브 기술을 구축하세요.

빠른 배포

빠른 배포

클라우드, 데이터센터 및 엣지에서 하나의 명령으로 최적화된 모델을 배포하세요.

엔드 투 엔드 가속화

엔드 투 엔드 가속화

지연 시간 제한 300밀리초(ms)보다 훨씬 빠르게 파이프라인 규모에서 가속화하고 모델 추론을 실행하세요.

진정한 엔드 투 엔드 가속화

완전히 가속화된 파이프라인

몇 분의 1초만에 전체 파이프라인 추론

오디오 전사를 위한 자동 음성 인식(ASR), 자연어 이해(NLU) 및 텍스트-음성 변환(TTS)으로 이루어진 대화형 AI 파이프라인 전체를 실시간 상호 작용을 위해 300ms의 지연 시간 제한보다 빠르게 실행하여 사용자 경험을 저하시키지 않고 증가하는 파이프라인 복잡성을 수용할 수 있습니다.

NVIDIA A100 Tensor 코어 GPU는 WikiText에서 BERT에 대해 가속기당 6.53시간, 대규모로는 0.83분으로 클러킹하여 MLPerf 트레이닝 v0.7 벤치마크에서 기록적인 성능을 제공했습니다.

대화형 AI 애플리케이션을 위한
NVIDIA 솔루션

목적을 위해 구축된 시스템으로 트레이닝 및 배포

대규모 트레이닝

NVIDIA DGX™ A100에는 지금까지 만들어진 것 중 가장 진보된 데이터센터 가속기인 NVIDIA A100 Tensor 코어 GPU 8개가 탑재되어 있습니다. Tensor Float 32(TF32) 정밀도는 코드 변경 없이 이전 세대보다 20배 개선된 AI 성능을 제공하며, 일반적인 NLP 모델에 걸친 구조적 희소성을 활용하여 추가로 성능을 2배 더 향상시킵니다. 3세대 NVIDIA® NVLink®, 2세대 NVIDIA NVSwitch™ 및 NVIDIA Mellanox® 인피니밴드는 모든 GPU 간에 초고대역폭 및 짦은 지연 시간 연결을 가능하게 합니다. 이로써 여러 DGX A100 시스템이 거대한 10억-매개 변수 모델을 대규모로 트레이닝하여 최고 수준의 정확도를 제공할 수 있습니다. 그리고 오픈 소스 툴킷인 NVIDIA NeMo™를 사용하여 개발자들은 단 몇 줄의 코드만으로 DGX 가속 대화형 AI 모델을 구축, 트레이닝 및 미세 조정할 수 있습니다.

대규모 트레이닝
엣지에서 배포

엣지에서 배포

NVIDIA EGX™ A100은 대량의 음성 및 언어 데이터를 엣지에서 처리하여 네트워크 지연을 피하는 동시에 실시간 대화형 AI가 구동되도록 합니다. 개발자들은 NVIDIA TensorRT™를 사용하여 추론을 위한 모델을 최적화하고 대화형 AI 애플리케이션을 짧은 지연 시간 및 높은 처리량으로 제공할 수 있습니다. NVIDIA Triton™ 추론 서버를 사용하면 모델이 프로덕션에 배포될 수 있습니다. TensorRT 및 Triton 추론 서버는 EGX에서 GPU 가속 엔드 투 엔드 멀티모달 파이프라인을 구축 및 배포하기 위한 대화형 AI용 애플리케이션 프레임워크인 NVIDIA Jarvis에서 지원됩니다. 자세히 들여다보면, Jarvis는 쿠버네티스 클러스터에서 Helm 차트를 통해 단일 명령을 배포하여 TensorRT를 적용하고, Triton 추론 서버를 구성하며, 표준 API를 통해 서비스를 제공합니다.

AI 기반 멀티모달 기술

다중 화자 전사

기존의 음성-텍스트 알고리즘이 진화하여 이제 회의, 강의 및 사회적 대화의 전사가 가능해지고 여러 명의 화자를 동시에 식별하고 각자의 말에 레이블을 지정할 수 있게 되었습니다. NVIDIA Jarvis를 통해 멀티센서 오디오와 영상 데이터가 여러 음성을 실시간으로 구별하는 데 필요한 시각적 화자 구분 등의 고급 전사 구성 요소에 사용되는 단일 정보 스트림에 결합될 수 있습니다.

 
 

가상 어시스턴트

가상 어시스턴트는 연락 센터, 스마트 스피커 및 차량 내 지능형 어시스턴트의 상호작용을 지원하여 거의 인간과 같은 방식으로 고객에게 다가갈 수 있습니다. 음성 인식, 언어 이해, 음성 합성 및 음성 코딩 등의 AI 기반 서비스만으로는 대화 추적 등의 핵심 구성 요소가 빠졌기 때문에 그러한 시스템을 지원할 수 없습니다. Jarvis는 모든 애플리케이션에 대해 확장할 수 있으며 사용이 쉬운 구성 요소를 통해 이러한 기본 서비스를 보완합니다.

엔터프라이즈 및 개발자 라이브러리 가속화

  • 에코시스템 파트너
  • 개발자 라이브러리

최고의 음성, 영상 및 언어 워크플로를 GPU 가속화하여 엔터프라이즈급 요구 사항을 충족하세요.

InstaDeep
Intelligent Voice
Kensho
MeetKai
MTS
NetApp
QuantiPhi
Siminsights
Voca.ai

GPU 가속화된 최첨단 딥 러닝 모델을 구축하는 인기 있는 대화형 AI 라이브러리

DeepPavlov
ESPNet
Hugging Face
Ludwig
PerceptiLabs
RASA
SpaCy

업계 사용 사례

환자 경험을 개선하는 채팅 기반 앱

환자 경험을 개선하는 채팅 기반 앱

Cureai의 플랫폼은 자연어 처리를 사용하여 환자가 증상을 의사와 공유하고 본인의 의료 기록에 액세스할 수 있도록 하며, 제공업체가 의료 관련 대화에서 데이터를 추출하여 치료 관련 정보를 더 잘 제공하도록 돕습니다.

GPU를 통한 대화형 AI 보편화를 가져오는 Square

GPU를 통한 대화형 AI 보편화를 가져오는 Square

소기업이 고객들과 더 효율적으로 커뮤니케이션할 수 있도록 지원하는 대화형 AI 엔진인 Square 어시스턴트에 대해 알아보세요.

대화형 AI를 통한 금융 서비스 혁신

대화형 AI를 통한 금융 서비스 혁신

성공적인 구현을 위한 엔터프라이즈 여정이 어떤 모습일지, 그리고 ROI를 통해 비즈니스를 지원하는 방법을 알아보세요.

지금 대화형 AI 가속화를 시작하세요

NVIDIA NeMo 프레임워크로 AI 모델 트레이닝

NVIDIA DGX A100 시스템에서 트레이닝 실행

NVIDIA Jarvis 프레임워크로 배포 단순화

NVIDIA EGX A100 시스템으로 엣지에 배포