거대 언어 모델

거대 언어 모델(LLM)은 엄청난 규모의 데이터 세트를 사용하여 콘텐츠를 인식, 요약, 번역, 예측 및 생성할 수 있는 딥 러닝 알고리즘입니다.

거대 언어 모델이란?

거대 언어 모델은 트랜스포머 네트워크라 불리는 딥 러닝 아키텍처 범주를 주로 의미합니다. 트랜스포머 모델은 이 문장의 단어들과 같은 순차 데이터에서 관계를 추적하여 맥락과 의미를 학습하는 신경망입니다.

트랜스포머는 층이라고도 하는 여러 개의 트랜스포머 블록으로 구성됩니다. 예를 들어, 트랜스포머에는 입력을 판독하고 추론 단계에서 출력 스트림을 예측하기 위해 함께 작동하는 셀프 어텐션층, 피드포워드층, 정규화층이 있을 수 있습니다. 보다 심층적인 트랜스포머와 강력한 언어 모델을 구현하기 위해 층을 쌓아 올릴 수 있습니다. 트랜스포머는 2017년 Google이 논문 “Attention Is All You Need”에서 처음 소개했습니다.

그림 1. 트랜스포머 모델의 작동 원리

트랜스포머가 거대 언어 모델에 특히 적합한 이유는 위치 인코딩과 셀프 어텐션이라는 두 가지 주요 혁신 기술 때문입니다.

위치 인코딩은 특정 시퀀스 내에서 입력이 나타나는 순서를 임베드합니다. 본질적으로, 문장 안의 단어가 신경망에 순차적으로 입력되는 것이 아니고 위치 인코딩 덕분에 단어가 비순차적으로 입력될 수 있습니다.

셀프 어텐션은 입력 데이터를 처리할 때 데이터의 각 부분에 가중치를 할당합니다. 이 가중치는 나머지 부분에 맥락을 제공하는 측면에서 해당 입력이 갖는 중요성을 나타냅니다. 다시 말해, 모델은 더 이상 모든 입력에 동일한 어텐션을 부여할 필요가 없고 실제로 중요한 입력 부분에만 집중할 수 있습니다. 신경망이 어떤 입력 부분에 집중해야 하는지를 나타내는 이러한 표현은 모델이 방대한 양의 데이터를 면밀히 검토 및 분석하면서 서서히 학습하게 됩니다.

이 두 가지 기술을 함께 사용하면 서로 다른 요소들이 멀리 떨어져서도 영향을 주고받으며 관계를 형성하고 있는 미묘한 방식과 맥락을 비순차적으로 분석할 수 있습니다.

데이터를 비순차적으로 처리할 수 있는 기능 덕분에 복잡한 문제를 여러 개의 더 작은 동시 연산으로 분해할 수 있습니다. 당연히 GPU는 이런 유형의 문제를 병렬로 해결하는 데 매우 적합하므로 레이블이 없는 대규모 데이터 세트와 거대한 트랜스포머 네트워크의 대규모 처리를 지원할 수 있습니다.

거대 언어 모델이 중요한 이유는?

지금까지 AI 모델은 인식과 이해에 초점을 맞춰왔습니다.

그러나 수천억 개 매개변수가 있는 인터넷 규모의 데이터 세트로 훈련된 거대 언어 모델이 등장함에 따라 사람처럼 콘텐츠를 생성할 수 있는 AI 모델의 능력이 잠금 해제되었습니다.

모델들은 실로 놀라운 방식으로 읽고, 쓰고, 코딩하고, 그리고, 제작할 수 있고 산업 전반에서 인간의 창의력을 강화하고 생산성을 높여 세계에서 가장 어려운 문제들을 해결할 수 있습니다.

이러한 LLM이 적용되는 사례는 무수히 많습니다. 예를 들어, AI 시스템은 단백질 서열의 언어를 배워 유용한 화합물을 제공함으로써 과학자들이 생명을 살리는 획기적인 백신을 개발하는 데 도움을 줄 수 있습니다.

또는 창의력 발휘, 소통, 창작 등 인간이 제일 잘하는 일을 수행하는 데 컴퓨터가 도움을 제공할 수도 있습니다. 집필자 장애(writer’s block)로 고생하는 작가는 거대 언어 모델을 사용하여 창의력에 불을 붙일 수 있습니다.

소프트웨어 프로그래머는 LLM을 활용하여 자연어 설명을 기반으로 코드를 생성하면서 생산성을 높일 수 있습니다.

거대 언어 모델의 예

전체 컴퓨팅 스택에서 발전이 이루어지면서 더욱 정교한 LLM을 개발할 수 있게 되었습니다. 2020년 6월 OpenAI는 짧은 텍스트 프롬프트에 기반하여 텍스트와 코드를 생성하는 1,750억 개 매개변수를 가진 모델인 GPT-3를 출시했습니다. 2021년 NVIDIA와 Microsoft가 개발한 Megatron-Turing Natural Language Generation 530B는 독해와 자연어 추론을 수행하는 모델 중 세계 최대 규모에 속하며 매개변수가 5,300억 개에 이릅니다.

LLM의 규모가 커지면서 기능도 향상되었습니다. 텍스트 콘텐츠를 위한 LLM 사용 사례를 광범위하게 분류하면 다음과 같습니다.

생성(예: 스토리 작성, 마케팅 콘텐츠 작성)
요약(예: 법률 패러프레이징, 회의 노트 요약)
번역(예: 언어 간, 텍스트에서 코드로)
분류(예: 독성 분류, 감성 분석(Sentiment Analysis))
챗봇(예: 오픈 도메인 질의응답, 가상 비서)

전 세계의 기업들이 새로운 가능성을 발굴하기 위해 LLM을 활용하기 시작했습니다.

의료 분야 연구원들은 교과서, 연구 논문, 환자 전자 의료 기록 등에서 가져온 데이터 코퍼스를 기반으로 의료 분야의 거대 언어 모델을 훈련하여 질병의 패턴을 밝혀내고 결과를 예측할 수 있는 단백질 구조 예측과 같은 작업에 적용합니다.
소매업체는 LLM을 활용하여 동적 챗봇으로 고객들에게 만족스러운 경험을 제공할 수 있습니다.
개발자들은 LLM을 활용하여 소프트웨어를 작성하고 로봇에게 물리적 작업을 수행하는 방법을 가르칠 수 있습니다.
재무상담사는 LLM을 사용하여 어닝콜의 내용을 요약하고 중요한 회의의 녹취록을 생성할 수 있습니다.
마케터는 LLM을 훈련시켜 고객의 피드백과 요청을 그룹화하거나 상품 설명을 기반으로 상품을 카테고리화할 수 있습니다.

거대 언어 모델은 아직 초기 단계에 있으며, 엄청난 가능성을 가지고 있습니다. 제로샷 러닝 기능을 갖춘 단일 모델이 사람처럼 즉시 사고를 이해하고 생성하여 상상할 수 있는 거의 모든 문제를 해결할 수도 있습니다. 사용 사례가 모든 기업, 모든 비즈니스 거래, 모든 업종에 걸쳐 존재하므로 가치 창출 기회가 어마어마합니다.

거대 언어 모델의 작동 원리는?

거대 언어 모델은 비지도 학습을 사용하여 훈련됩니다. 비지도 학습을 통해 모델은 레이블이 없는 데이터 세트를 사용하여 이전에 몰랐던 데이터 패턴을 찾을 수 있습니다. 이 방법을 사용하면 AI 모델을 구축할 때 가장 큰 어려움 중 하나인 광범위한 데이터 레이블링이 필요하지 않습니다.

LLM은 방대한 훈련 프로세스를 거치기 때문에 특정 작업을 위한 훈련 없이 여러 사용 사례에 모델을 적용할 수 있습니다. 이런 유형의 모델을 파운데이션 모델이라고 합니다.

많은 지도 또는 훈련 없이 다양한 목적을 위해 텍스트를 생성할 수 있는 파운데이션 모델의 기능을 제로샷 러닝이라고 합니다. 이 기능의 다양한 변형에는 원샷 또는 퓨샷 러닝이 포함되는데, 특정 사용 사례에서 더 잘 이해하고 작동하도록 작업 수행 방법을 보여주는 하나 이상의 예제를 파운데이션 모델에 제공하는 것입니다.

거대 언어 모델의 엄청난 제로샷 러닝 기능에도 불구하고, 개발자와 기업에는 이러한 시스템을 원하는 방식으로 작동하도록 길들이려 하는 본능적인 욕구가 있습니다. 특정 사용 사례를 위해 이러한 거대 언어 모델을 배포하려면 몇 가지 기술을 사용하여 모델을 맞춤화함으로써 정확도를 더욱 높일 수 있습니다. 몇 가지 기술로는 프롬프트 튜닝, 파인 튜닝, 어댑터 등이 있습니다.

그림 2. 인코더-디코더 언어 모델의 구조를 보여주는 이미지

거대 언어 모델은 각기 다른 사용 사례 유형에 적합한 몇 가지 그룹으로 나눌 수 있습니다.

인코더 온리: 이 모델은 일반적으로 분류, 감성 분석과 같이 언어를 이해할 수 있는 작업에 적합합니다. 인코더 온리 모델의 예로는 Bert(Bidirectional Encoder Representations from Transformers)가 있습니다.
디코더 온리: 이 부류의 모델은 언어와 콘텐츠를 생성하는 데 매우 뛰어납니다. 사용 사례로는 스토리 작성과 블로그 작성 등이 있습니다. 디코더 온리 아키텍처의 예에는 GPT-3(Generative Pretrained Transformer 3)가 포함됩니다.
인코더-디코더: 이 모델은 트랜스포머 아키텍처의 인코더 및 디코더 구성 요소를 결합하여 콘텐츠를 이해하고 생성합니다. 이 아키텍처가 빛을 발하는 몇 가지 사용 사례에는 번역과 요약이 있습니다. 인코더-디코더 아키텍처의 예에는 T5(Text-to-Text Transformer)가 포함됩니다.

거대 언어 모델이 당면한 과제는?

거대 언어 모델을 개발하고 유지하는 데 필요한 상당한 자본 투자, 대규모 데이터 세트, 전문 기술 지식, 대규모 컴퓨팅 인프라는 대부분의 기업에 진입 장벽이 되어왔습니다.

그림 3. 트랜스포머 모델 훈련에 필요한 컴퓨팅

컴퓨팅, 비용, 시간 집약적 워크로드: LLM을 개발하고 유지하는 데는 상당한 자본 투자와 전문 기술 지식, 대규모 컴퓨팅 인프라가 필요합니다. LLM을 훈련시키려면 수천 개의 GPU가 필요하고 몇 주에서 몇 달의 시간을 훈련에 할애해야 합니다. 일부 추정에 따르면 3,000억 개 토큰으로 훈련된 1,750억 개 매개변수를 갖춘 GPT-3 모델의 경우 한 번의 훈련 실행에 컴퓨팅으로만 1천2백만 달러 이상이 소요될 수 있습니다.
필요한 데이터의 규모: 앞서 언급했듯이, 거대 모델을 훈련시키기 위해서는 방대한 양의 데이터가 필요합니다. 많은 기업은 거대 언어 모델을 훈련시킬 수 있을 만큼의 큰 데이터 세트에 액세스하는 데 어려움을 겪습니다. 금융, 의료 분야와 같이 개인 데이터가 필요한 사용 사례에서는 이 문제가 더 심각해집니다. 사실상 모델 훈련에 필요한 데이터가 존재하지도 않을 수 있습니다.
전문 기술 지식: 어마어마한 규모 때문에 거대 언어 모델의 훈련과 배포는 굉장히 어려운 작업입니다. 딥 러닝 워크플로, 트랜스포머, 분산 소프트웨어 및 하드웨어에 대한 이해가 깊어야 하고 수천 개의 GPU를 동시에 관리할 수 있어야 합니다.

거대 언어 모델을 시작하는 방법은?

NVIDIA는 거대 언어 모델을 쉽게 구축하고 배포할 수 있도록 다음과 같은 도구를 제공합니다.

NVIDIA NeMo Service는 NVIDIA AI Foundations의 일부로 제공되는 클라우드 서비스로, 기업이 지능형 거대 언어 모델을 초개인화하고 대규모로 배포할 수 있도록 지원합니다.
NVIDIA BioNeMo Service는 NVIDIA AI Foundations의 일부로, 신약 개발 분야의 생성형 AI를 위한 클라우드 서비스입니다. 이를 통해 연구자는 도메인별 최첨단 생성형 및 예측형 생체분자 AI 모델을 대규모로 맞춤화 및 배포할 수 있습니다.
NVIDIA Picasso Service는 NVIDIA AI Foundations의 일부로, 생성형 AI 기반 이미지, 동영상, 3D 애플리케이션의 구축 및 배포를 지원하는 클라우드 서비스입니다.
NVIDIA NeMo 프레임워크는 NVIDIA AI 플랫폼의 일부로, 수십억 개 매개변수를 가진 생성형 AI 모델을 구축, 맞춤화, 배포하는 데 유용한 엔드투엔드 클라우드 네이티브 엔터프라이즈 프레임워크입니다.

여러 어려움에도 불구하고 거대 언어 모델의 가능성은 엄청납니다. NVIDIA와 NVIDIA의 에코시스템은 소비자, 개발자 및 기업이 거대 언어 모델의 혜택을 누릴 수 있도록 최선을 다하고 있습니다.

다음 단계

NVIDIA의 LLM 솔루션 살펴보기

NVIDIA가 거대 언어 모델 솔루션을 통해 기업을 위한 LLM 대중화에 어떻게 기여하고 있는지 확인해 보세요.

LLM에 대해 더 알아보기

온디맨드 LLM 동영상 및 튜토리얼 보기

거대 언어 모델에 대한 이 무료 동영상 재생 목록에는 튜토리얼과 설명부터 사례 연구와 단계별 가이드에 이르는 다양한 유형의 동영상이 포함되어 있습니다.

LLM 관련 동영상 및 튜토리얼 살펴보기

LLM에 대한 기술 지식 심화하기

NVIDIA 기술 블로그에서 거대 언어 모델의 개발 방법에 대해 자세히 알아보세요.

LLM 기술 블로그 읽기