대화형 AI는 기술 조합을 사용하여 사람 간의 상호 작용과 같은 컴퓨터-인간 상호 작용을 제공하는 복잡한 형태의 인공지능입니다. 가장 정교한 시스템은 음성과 텍스트를 인식하고, 의도를 이해하며, 언어별 관용구와 격언을 인식하고, 적절한 자연어로 대답합니다.
대화형 AI는 기술 조합을 사용하여 사람 간의 상호 작용과 같은 컴퓨터-인간 상호 작용을 제공하는 복잡한 형태의 인공지능입니다. 가장 정교한 시스템은 음성과 텍스트를 인식하고, 의도를 이해하며, 언어별 관용구와 격언을 인식하고, 적절한 자연어로 대답합니다.
대화형 AI는 사람이 음성으로 장치, 머신, 컴퓨터 등과 자연스럽게 상호 작용할 수 있도록 지원하는 언어 기반 앱을 개발하기 위해 머신 러닝을 적용한 것입니다.
가상 비서가 아침에 일어나라고 깨울 때도, 출퇴근길에 길 안내를 요청할 때도, 온라인으로 쇼핑하다가 챗봇과 대화할 때도 대화형 AI를 사용하게 됩니다. 평상시 목소리로 말하면 장치가 이해하고 최적의 답을 찾은 후 자연스러운 음성으로 대답합니다.
대화형 AI는 여러 가지 형태로 응용할 수 있습니다. 가장 간단한 형태는 FAQ 봇으로, 사전에 작성된 답변 데이터베이스를 기반으로 주로 텍스트 형태의 질문에 답변하도록 훈련됩니다. 좀 더 복잡한 형태의 대화형 AI는 Amazon의 Alexa, Apple의 Siri, Microsoft의 Cortana와 같은 가상 개인 비서입니다. 이러한 엔진은 간단한 요청에 응답하도록 튜닝되어 있습니다.
좀 더 전문화된 버전의 개인 비서는 가상 고객 비서로, 맥락을 이해하며 이전 상호 작용의 대화를 다음 상호 작용에서도 이어갈 수 있습니다. 또 다른 형태의 전문화된 대화형 AI는 가상 직원 비서입니다. 이 가상 직원 비서는 직원이 소프트웨어 애플리케이션과 수행한 상호 작용 그리고 워크플로의 맥락을 학습하여 개선 사항을 제안합니다. 가상 직원 비서는 인기를 끌고 있는 최신 소프트웨어 범주인 로봇 프로세스 자동화에 널리 사용되고 있습니다.
대화형 AI는 사람이 로봇, 자동차, 가정용 비서, 모바일 앱 등과 같은 지능형 시스템 및 애플리케이션과 상호 작용하는 데 없어서는 안 되는 필수 요소입니다. 컴퓨터가 인간의 언어를 모든 뉘앙스까지 이해하고 적절히 반응하도록 하는 것은 AI 연구자들에게 오랫동안 "성배"와 같은 것이었습니다. 그러나 진정한 자연어 처리(NLP) 기능을 갖춘 시스템을 구축하는 것은 가속 컴퓨팅을 기반으로 하는 최신 AI 기술이 도입되기 전에는 불가능했습니다.
지난 몇 년간 딥 러닝은 대화형 AI의 최첨단 기술을 개선해 왔고 특정 작업에서 인간을 뛰어넘는 정확도를 제공했습니다. 또한 딥 러닝을 사용하면 언어학과 규칙 기반 기법에 대한 깊은 지식이 없어도 언어 서비스를 구축할 수 있어 소매, 헬스케어, 금융 등의 다양한 업종에서 광범위하게 채택되어 왔습니다.
고급 버전의 대화형 AI 도구에 대한 수요가 증가하고 있습니다. 2020년에는 검색의 약 50%가 음성으로 수행되고 2023년에는 사용 중인 디지털 음성 비서의 수가 80억 개에 달할 것으로 예상됩니다.
질문에 대한 응답은 몇 가지 단계를 거쳐 제공됩니다. 즉, 사용자의 음성을 텍스트로 변환하고, 이 텍스트의 의미를 이해하고, 맥락에 맞게 제공할 최적의 답변을 검색하고, 텍스트 음성 변환 도구를 사용하여 이 답변을 제공하는 것입니다. 일반적으로 대화형 AI 파이프라인은 다음의 세 가지 단계로 구성됩니다.
이러한 각 단계는 여러 개의 AI 모델을 실행해야 합니다. 따라서 각 개별 신경망에 허용되는 실행 시간은 약 10밀리초 이하입니다.
자동 음성 인식(ASR)은 사람의 음성을 입력으로 받고 읽을 수 있는 텍스트로 변환합니다. 딥 러닝은 음소를 식별할 때 더 높은 정확도를 제공하기 때문에 은닉 마르코프 모델, 가우시안 혼합 모델과 같은 기존의 통계적 방식을 대체하게 되었습니다.
자연어 이해(NLU)는 텍스트를 입력으로 받고 맥락과 의도를 이해하고 지능적인 응답을 생성합니다. 딥 러닝 모델은 다양한 맥락과 언어를 토대로 정확하게 일반화를 수행할 수 있는 능력 때문에 NLU에 적용됩니다. Bert(Bidirectional Encoder Representations from Transformers)와 같은 트랜스포머 딥 러닝 모델은 순환 신경망의 대안으로, 어텐션 기법을 적용합니다. 즉, 앞뒤의 가장 관련성 높은 단어에 주의를 집중하여 문장 구문을 분석합니다. Bert는 질의 답변(QA), 개체 인식, 의도 파악, 감성 분석(Sentiment Analysis) 등을 위한 벤치마크에서 인간 기준선에 필적하는 정확도를 제공함으로써 NLU를 혁신적으로 발전시켰습니다.
대화형 AI 파이프라인의 마지막 단계에서는 NLU 단계에서 생성된 텍스트 응답을 가져와 자연스러운 음성으로 변경합니다. 사람과 같은 억양과 분명한 발음을 생성하는 심층 신경망을 통해 명확한 음성이 만들어집니다. 이 단계를 수행하는 데는 두 가지 네트워크, 즉 텍스트에서 스펙트로그램을 생성하는 합성 네트워크와 이 스펙트로그램에서 파형을 생성하는 보코더 네트워크가 사용됩니다.
대화형 AI를 뒷받침하는 기술은 복잡합니다. 수반되는 여러 단계의 프로세스에는 막대한 양의 컴퓨팅 성능과 연산이 필요하며 만족스러운 사용자 경험을 제공하기 위해 모든 연산은 300밀리초 이내에 수행되어야 합니다.
GPU는 수백 개의 코어로 구성되어 있어 수천 개의 스레드를 병렬로 처리할 수 있습니다. GPU는 CPU만 사용하는 플랫폼에 비해 10배 더 높은 성능을 제공할 수 있기 때문에 딥 러닝 모델의 학습과 추론을 실행하는 플랫폼으로 선호되고 있습니다.
NVIDIA GPU와 NVIDIA® CUDA-X AI™ 라이브러리를 사용하면 최첨단 거대 언어 모델을 빠르게 훈련시키고 최적화하여 단 몇 밀리초(1,000분의 1초) 만에 추론을 실행할 수 있습니다. 이는 빠른 AI 모델과 크고 복잡한 AI 모델 간의 상충 관계를 종결할 수 있는 중요한 진전입니다.
뿐만 아니라 Bert와 같은 트랜스포머 기반 딥 러닝 모델은 순차 데이터를 순서대로 처리할 필요가 없으므로 RNN보다 훨씬 더 고도화된 병렬화를 허용하고 GPU에서 훈련 시간을 크게 단축합니다.
다음과 같은 최신식 대화형 AI 기술은 NVIDIA GPU를 사용하여 가속화되고 있습니다.
GPU로 최적화한 언어 이해 모델은 헬스케어, 소매, 금융 서비스와 같은 산업의 AI 애플리케이션에 통합되어 스마트 스피커와 고객 서비스 센터에 사용되는 음성 기반 디지털 비서를 더욱 고급화할 수 있습니다. 이러한 고품질의 대화형 AI 도구 덕분에 여러 부문의 기업은 고객과 소통할 때 이전에는 불가능했던 수준의 개인화된 서비스를 제공할 수 있습니다.
헬스케어
의료 부문의 난제 중 하나는 의료 서비스를 쉽게 이용할 수 있도록 만드는 것입니다. 병원에 전화할 때는 연결까지 한참 기다리는 일이 흔합니다. 심사청구 담당자에게 연결되는 것도 마찬가지로 어려울 수 있습니다. 자연어 처리(NLP)를 구현하여 챗봇을 훈련하는 것은 헬스케어 분야에서 새롭게 부상하는 기술로, 헬스케어 전문가 부족 문제를 해결하고 환자와 소통할 수 있는 새로운 수단을 마련해 줍니다.
NLP가 헬스케어 분야에 응용되는 또 다른 주요 사례는 생물의학 텍스트 마이닝으로, BioNLP라고도 합니다. 생물학 문헌의 방대한 양과 생물의학 간행물의 증가 속도를 감안하면, 자연어 처리는 생물의학 분야의 지식 발전을 위해 발표된 연구에서 정보를 추출하여 신약 발견과 질병 진단을 보조하는 데 매우 중요한 도구가 될 수 있습니다.
금융 서비스
자연어 처리(NLP)는 금융 서비스 회사가 더 나은 챗봇과 AI 비서를 구축하는 데 있어 매우 중요한 요소입니다. NLP 기반 애플리케이션에 사용되는 수많은 언어 모델 중에서 Bert는 머신 러닝 기반 NLP의 리더이자 언어 모델로 부상했습니다. NVIDIA는 최근 AI를 사용하여 Bert 훈련 속도 기록을 경신하였는데, 이는 향후 수년 내에 온라인에 출시될 수십억 개 대화형 AI 서비스의 잠재력을 실현하여 인간 수준의 이해력을 갖춘 작동을 달성하는 데 도움이 될 것으로 기대됩니다. 예를 들어, 은행에서는 NLP를 활용하여 신용 기록이 거의 없거나 전혀 없는 고객의 신용도를 평가할 수 있습니다.
소매
챗봇 기술은 고객 문의를 정확하게 분석하고 응답이나 추천을 생성하기 위해 소매 애플리케이션에도 일반적으로 사용됩니다. 이를 통해 고객 여정을 간소화하고 매장 운영의 효율성을 개선할 수 있습니다. NLP는 텍스트 마이닝 고객의 피드백 및 감성 분석에도 사용됩니다.
여러 가지 이점이 있습니다. 첫 번째로는 인건비가 높다는 것입니다. 비용는 천차만별이지만, F. Curtis Barry & Co.에 따르면 고객이 서비스 센터에 전화할 때마다 소요되는 총비용은 2.70~5.60달러이며, 평균 비용을 분당 약 1달러로 추정한 곳들도 있습니다. 실제 직원을 봇으로 대체할 경우 얻게 되는 비용 절감 효과는 확실합니다. 또한 연구에 따르면, 많은 사람이 영업 사원이나 고객 서비스 상담원보다 컴퓨터와 대화하는 것을 더 편하게 생각하므로, 고객 셀프서비스는 대화형 AI를 활용하기에 적합한 영역입니다.
대화형 AI는 키보드 기반 상호 작용보다 더 적절할 때가 많습니다. 예를 들어, 운전 중이거나 다른 일을 하고 있는 경우 또는 엘리베이터 안에 있을 때처럼 키보드 사용이 불가능한 경우일 수 있습니다.
대화형 AI의 핵심 기술은 모호한 질문을 해석하거나 다듬을 때 또는 다른 언어를 구사하는 사람의 질문을 해석할 때도 사용될 수 있습니다.
Gartner의 연구에 따르면 기업이 다루는 고객 관계의 85%는 사람의 개입 없이 처리될 수 있으며, McKinsey & Co.는 전 세계 직업의 약 60%에서 수행되는 업무의 1/3은 이 기술을 활용할 수 있는 것으로 추정했습니다.
대화형 AI로 서비스를 제공하는 것은 힘든 일처럼 보일 수 있지만, NVIDIA는 이런 프로세스를 더 쉽게 구현할 수 있도록 Neural Modules(NeMo)와 NVIDIA Riva라는 신기술을 비롯하여 여러 가지 도구를 제공하고 있습니다. 시간 절약을 위해 사전 훈련된 모델, 훈련 스크립트, 성능 결과 등도 NVIDIA GPU Cloud(NGC) 소프트웨어 허브에서 구할 수 있습니다.
NVIDIA Riva는 GPU 가속 애플리케이션 프레임워크로, 이를 통해 기업은 동영상 및 음성 데이터를 사용하여 해당 업계, 제품, 고객에 맞춤화된 최첨단 대화형 AI 서비스를 구축할 수 있습니다.
Riva는 대화형 AI를 위한 엔드투엔드 딥 러닝 파이프라인을 제공합니다. 여기에는 자연어 이해를 위한 NVIDIA의 Megatron BERT와 같은 최첨단 딥 러닝 모델이 포함되어 있습니다. 기업은 NVIDIA NeMo를 사용하여 자사 데이터로 이러한 모델을 더욱 파인 튜닝하고 NVIDIA TensorRT™로 추론을 최적화하고 Helm 차트를 통해 클라우드와 에지에 모델을 배포할 수 있습니다. Helm 차트는 NVIDIA의 GPU 최적화 소프트웨어 카탈로그인 NGC에서 구할 수 있습니다.
Riva로 구축한 애플리케이션은 새로운 NVIDIA A100 Tensor 코어 GPU의 혁신 기술을 AI 컴퓨팅에 활용하고 NVIDIA TensorRT의 최신 최적화를 추론에 활용할 수 있습니다. 이를 통해 가장 강력한 비전 및 음성 모델을 사용하는 전체 멀티 모달 애플리케이션을 실시간 상호 작용을 위한 300밀리초 임곗값보다 더 빠르게 실행할 수 있습니다.
CUDA를 기반으로 하는 오픈 소스 소프트웨어 라이브러리인 RAPIDS™ 제품군을 사용하면 Pandas 및 Scikit-learn API와 같은 익숙한 인터페이스를 계속 사용하면서 엔드투엔드 데이터 사이언스 및 분석 파이프라인을 전적으로 GPU에서 실행할 수 있습니다.
GPU 가속 딥 러닝 프레임워크는 맞춤형 심층 신경망을 유연하게 설계하고 훈련할 수 있는 기능과 파이썬, C/C++와 같이 일반적으로 사용되는 프로그래밍 언어를 위한 인터페이스를 제공합니다. MXNet, 파이토치, 텐서플로 등과 같이 널리 사용되는 딥 러닝 프레임워크는 고성능 멀티 GPU 가속 훈련을 제공하기 위해 NVIDIA GPU 가속 라이브러리를 사용합니다.
Bert, GPT-2 8B와 같은 트랜스포머 기반 언어 네트워크에 막대한 성능이 요구되는 이유는 이러한 네트워크가 완전히 복잡할 뿐만 아니라 엄청난 양의 데이터 세트에 기반한 사전 훈련이 필요하기 때문입니다. 이 조합으로 인해 필요한 모든 연산을 처리하여 실행 속도와 정확도를 모두 높일 수 있는 강력한 컴퓨팅 플랫폼이 필수적입니다. 이 모델들은 레이블이 없는 대규모 데이터 세트로 학습할 수 있다는 사실 때문에 오늘날의 NLP 분야에서 혁신의 중심이 되었고, 더 나아가 여러 형태로 급증하고 있는 대화형 AI 기반 지능형 비서를 위한 탁월한 선택지가 되었습니다.
텐서 코어 아키텍처를 사용하는 NVIDIA 플랫폼은 트랜스포머 기반 모델을 비롯하여 광범위한 최신 AI 모델을 가속화할 수 있도록 프로그래밍 가능성을 제공합니다. 또한 소프트웨어 라이브러리, 주요 AI 프레임워크에 대한 직접적인 지원과 결합된 DGX SuperPOD™의 데이터센터급 설계 및 최적화는 개발자에게 가장 까다로운 NLP 작업을 수행할 수 있는 원활한 엔드투엔드 플랫폼을 제공합니다.
다양한 프레임워크에서 GPU용 Bert 및 트랜스포머의 훈련을 가속화하기 위한 지속적인 최적화는 NVIDIA의 가속 소프트웨어 허브인 NGC에서 무료로 구할 수 있습니다.
NVIDIA TensorRT에는 Bert 및 대규모 트랜스포머 기반 모델에서 실시간 추론을 실행하기 위한 최적화가 포함되어 있습니다. 더 자세한 내용은 NVIDIA의 “대화형 AI를 위한 실시간 Bert 추론” 블로그를 확인해 보세요. 현재 NVIDIA의 Bert GitHub 리포지토리에는 이 블로그에 인용된 단일 노드 훈련 성능을 재현할 수 있는 코드가 들어 있으며, 조만간 대규모 훈련 성능 수치를 재현하는 데 필요한 스크립트를 포함하도록 업데이트될 예정입니다. Project Megatron에서 사용된 NVIDIA 연구팀의 NLP 코드는 Megatron Language Model GitHub 리포지토리에서 확인할 수 있습니다.
더 자세한 내용은 다음을 참조해 주세요.
더 알아보기:
NVIDIA Deep Learning Institute는 강사 주도형 실습 교육을 통해 문서 분류와 같은 텍스트 분류 작업을 위한 트랜스포머 기반 자연어 처리 모델을 구축하는 데 필요한 기본적인 도구와 기법을 소개하고 있습니다.