가상 디지털 비서는 자연어를 이해하고 음성 명령을 기반으로 질문에 답하거나 작업을 완료할 수 있는 프로그램입니다.
가상 디지털 비서는 자연어를 이해하고 음성 명령을 기반으로 질문에 답하거나 작업을 완료할 수 있는 프로그램입니다.
Siri, Alexa, Google Home, Cortana 등의 가상 디지털 비서는 대화형 AI를 사용하여 디지털 작업의 수행을 지시하는 음성 명령을 인식하고 이에 반응합니다. 대화형 AI는 기계 학습을 적용하여 언어기반 앱을 개발하기 위한 것으로, 사람들이 음성을 통해 장치, 기계, 컴퓨터와 자연스럽게 상호 작용할 수 있도록 합니다. 가상 비서가 아침에 깨울 때에도 대화형 AI를 사용합니다. 평상시 목소리로 말하면 장치가 이해하고 최적의 답을 찾은 후 자연스러운 음성으로 대답합니다.
가상 디지털 비서는 본질적으로 클라우드 응용프로그램의 의 음성 지원 프런트 엔드입니다. 이러한 소프트웨어는 일반적으로 스마트폰, 태블릿, 데스크톱 컴퓨터 그리고 경우에 따라 전용 장치에 내장됩니다.. 대부분의 경우, 가상 디지털 비서는 인터넷에 연결되어 음성 인식 및 쿼리 수행에 필요한 클라우드 기반의 백엔드에 액세스합니다. 대화형 AI 기술은 막대한 양의 컴퓨팅 성능과 연산이 필요한 여러 단계의 프로세스로 복잡하게 이루어졌으며, 만족스러운 사용자 경험을 위해서는 300 밀리초 미만의 시간 내에 모두 처리되어야 합니다.
가상 개인 비서인 Amazon Alexa, Apple Siri, Microsoft Cortana는 단순한 요청에만 응답하여 다음 대화로 문맥을 이어가지 못합니다. 좀 더 전문화된 버전의 개인 비서는 가상 고객 비서로, 이전 대화의 맥락을 이해하며 다음 대화를 이어갈 수 있습니다. 또 다른 특화된 대화형 AI는 가상 직원 비서입니다. 이 가상 직원 비서는 직원들의 소프트웨어 애플리케이션 사용 그리고 일하는 방식을 학습하여 개선사항을 제안합니다. 가상 직원 비서는 인기를 끌고 있는 최신 소프트웨어 범주인 로봇 프로세스 자동화에 널리 사용되고 있습니다.
음성 지원 디지털 비서의 수요는 증가하고 있습니다. Juniper Research 회사가 추정한 바에 따르면 사용되는 음성 지원 디지털 비서의 수가 2023년이면 80억 개에 이르는데, 이는 2018년 말에 사용되고 있던 25억 개보다 3배 이상 많은 수치입니다. 재택근무, 원격 의료, 원격 학습으로의 전환이 일어남에 따라 고객 지원부터 실시간 받아적기, 화상 회의 요약에 이르기까지 생산성 및 연결성을 향상하는 맞춤형 언어 기반 AI 서비스에 대한 수요가 급증했습니다.
음성 지원 비서부터 질문에 답변하여 고객의 셀프서비스를 지원하는 시스템에 이르기까지, 대화형 AI의 적용 사례는 날마다 늘어나고 있습니다. 금융 분야부터 헬스케어에 이르기까지 대화형 AI 솔루션을 적용하고 있는 산업이 매우 다양하며 더욱 더 확장되고 있습니다. 이 기술은 특히 운전 중일 때와 같이 화면이나 키보드를 사용하기가 불편하거나 안전하지 않은 상황에 유용합니다. 가상 비서는 이미 스마트폰에서 널리 사용되고 있습니다. 이렇게 가정, 자동차, 사무실에서의 기기들에서 가상 비서의 사용이 보편화 되면서, 학계와 산업에서 해당 분야에 대한 연구가 급증하고 있습니다.
가상 비서에는 막대한 양의 데이터가 필요하며 여러 인공 지능 기술이 함께 사용됩니다. 다양한 알고리즘들을 통해 가상 비서는 요청들로부터 학습하고 문맥을 고려한 응답을 할 수 있도록 발전시켰습니다(예: 이전의 대화들을 기반으로 답변).
일반적인 대화형 AI 응용프로그램은 음성 처리 및 텍스트 변환 단계를 수행하기 위해(즉, 질문을 이해(의미 도출)하고 답변(텍스트)을 생성하고 이 답변을 사람에게 다시 말하기 위해) 세 가지 하위 시스템을 사용합니다. 첫째, 자동 음성 인식(ASR)은 원시 오디오 신호를 처리하고 텍스트로 변환합니다. 둘째, 자연어 처리(NLP) 또는 이해(NLU)는 변환된 텍스트에서 의미를 추출하는 데 사용됩니다. 마지막으로, 음성 합성 또는 텍스트 음성 변환(TTS)은 텍스트에서 인공적인 인간 음성을 생성하는 데 사용됩니다. 이 다단계 프로세스를 최적화하는 것은 복잡한 작업입니다. 각 단계는 하나 이상의 딥 러닝 모델을 구축하고 사용해야 하기 때문입니다.
딥 러닝 모델은 다양한 맥락과 언어를 토대로 정확하게 일반화를 수행할 수 있는 능력 때문에 NLU에 적용됩니다. BERT(Bidirectional Encoder Representations from Transformers)와 같은 트랜스포머 딥 러닝 모델은 순환 신경망의 대안으로, 어텐션 기법을 적용합니다. 즉, 앞뒤의 가장 관련성 높은 단어에 주의를 집중하여 문장 구문을 분석합니다. BERT는 질의 답변(QA), 개체 인식, 의도 파악, 감성 분석(Sentiment Analysis) 등을 위한 벤치마크에서 인간 기준선에 필적하는 정확도를 제공함으로써 NLU를 혁신적으로 발전시켰습니다.
대화형 AI는 막대한 양의 컴퓨팅 성능을 필요로 하며 300밀리초 이내에 결과를 제공해야 합니다.
GPU는 수백 개의 코어로 구성되어 있어 수천 개의 스레드를 병렬로 처리할 수 있습니다. GPU는 CPU만 사용하는 플랫폼에 비해 10배 더 높은 성능을 제공할 수 있기 때문에 딥 러닝 모델을 훈련시키고 추론을 수행하기 위한 플랫폼으로 선호되고 있습니다.
대화형 AI로 서비스를 제공하는 것은 힘든 일처럼 보일 수 있지만, NVIDIA는 이런 프로세스를 더 쉽게 구현할 수 있도록 NVIDIA Riva라는 신기술을 비롯하여 여러 도구를 제공하고 있습니다.
NVIDIA Riva는 GPU 가속 애플리케이션 프레임워크로, 이를 통해 기업은 동영상 및 음성 데이터를 사용하여 해당 업계, 제품, 고객에 맞춤화된 최첨단 대화형 AI 서비스를 구축할 수 있습니다.
이 프레임워크는 대화형 AI를 위한 엔드투엔드 딥 러닝 파이프라인을 제공합니다. 여기에는 자연어 이해를 위한 NVIDIA의 Megatron BERT와 같은 최첨단 딥 러닝 모델이 포함되어 있습니다. 기업은 NVIDIA NeMo를 이용해 데이터를 토대로 이러한 모델을 더욱 미세 조정할 수 있고, NVIDIA® TensorRT™를 사용하여 추론에 최적화할 수 있으며, NVIDIA의 GPU 최적화 소프트웨어 카탈로그인 NVIDIA GPU Cloud™(NGC)를 통해 Helm 차트를 사용하여 클라우드와 에지에 모델을 배포할 수 있습니다.
Riva로 구축한 응용프로그램은 새로운 NVIDIA A100 Tensor 코어 GPU의 혁신 기술을 AI 컴퓨팅에 활용하고 NVIDIA TensorRT의 최신 최적화를 추론에 활용할 수 있습니다. 이를 통해 가장 강력한 비전 및 음성 모델을 사용하는 전체 멀티 모달 애플리케이션을 실시간 상호 작용을 위한 300밀리초 임계값보다 더 빠르게 실행할 수 있습니다.
전 세계 기업들은 NVIDIA의 대화형 AI 플랫폼을 사용하여 서비스를 향상하고 있습니다.
Toshiba, AT&T 등의 세계 유수 기업들이 활용하고 있는 Voca의 AI 가상 상담원은 NVIDIA 기술을 사용하여 인간 간의 소통 같은, 보다 빠르고 보다 인터랙티브한 소통을 제공합니다. Voca는 AI를 사용하여 고객이 말한 대화 및 발언 내용의 전체적인 의도를 이해합니다. 이 덕분에 상담원은 다양한 어조와 음성적 단서를 자동으로 파악하여 고객이 말하는 것과 실제 의미하는 것을 구분할 수 있습니다. 또한 NVIDIA의 AI 플랫폼에 내장된 확장성 기능을 이용하여 고객의 대기 시간을 대폭 줄일 수도 있습니다.
매사추세츠 케임브리지에 위치한 S&P Global의 혁신 허브인 Kensho는 확장 가능한 머신 러닝 및 분석 시스템을 배포하는 조직으로, NVIDIA의 대화형 AI를 사용하여 금융 및 비즈니스 분야의 음성 인식 솔루션인 Scribe를 개발했습니다. NVIDIA 기술이 적용된 Scribe는 어닝콜 및 기타 유사한 금융 오디오에서 다른 상용 솔루션보다 정확도가 최대 20% 더 높습니다.
Square가 만든 AI 가상 비서를 통해 Square 판매자들은 AI를 사용하여 고객과의 약속을 자동으로 확인, 취소 또는 변경할 수 있습니다. 이를 통해 판매자는 보다 전략적으로 고객과 소통할 수 있는 시간을 확보할 수 있습니다. 또한 Square는 GPU를 통해 CPU보다 10배 더 빠르게 모델을 훈련시켜 보다 정확하고 사람처럼 자연러운 상호 작용을 제공할 수 있습니다.
더 자세한 내용은 다음을 참조해 주세요.
더 알아보기: