거대 언어 모델(LLM)은 엄청난 규모의 데이터 세트를 사용하여 콘텐츠를 인식, 요약, 번역, 예측 및 생성할 수 있는 딥 러닝 알고리즘입니다.
거대 언어 모델은 트랜스포머 네트워크라 불리는 딥 러닝 아키텍처 범주를 주로 의미합니다. 트랜스포머 모델은 이 문장의 단어들과 같은 순차 데이터에서 관계를 추적하여 맥락과 의미를 학습하는 신경망입니다.
트랜스포머는 층이라고도 하는 여러 개의 트랜스포머 블록으로 구성됩니다. 예를 들어, 트랜스포머에는 입력을 판독하고 추론 단계에서 출력 스트림을 예측하기 위해 함께 작동하는 셀프 어텐션층, 피드포워드층, 정규화층이 있을 수 있습니다. 보다 심층적인 트랜스포머와 강력한 언어 모델을 구현하기 위해 층을 쌓아 올릴 수 있습니다. 트랜스포머는 2017년 Google이 논문 “Attention Is All You Need”에서 처음 소개했습니다.
그림 1. 트랜스포머 모델의 작동 원리
트랜스포머가 거대 언어 모델에 특히 적합한 이유는 위치 인코딩과 셀프 어텐션이라는 두 가지 주요 혁신 기술 때문입니다.
위치 인코딩은 특정 시퀀스 내에서 입력이 나타나는 순서를 임베드합니다. 본질적으로, 문장 안의 단어가 신경망에 순차적으로 입력되는 것이 아니고 위치 인코딩 덕분에 단어가 비순차적으로 입력될 수 있습니다.
셀프 어텐션은 입력 데이터를 처리할 때 데이터의 각 부분에 가중치를 할당합니다. 이 가중치는 나머지 부분에 맥락을 제공하는 측면에서 해당 입력이 갖는 중요성을 나타냅니다. 다시 말해, 모델은 더 이상 모든 입력에 동일한 어텐션을 부여할 필요가 없고 실제로 중요한 입력 부분에만 집중할 수 있습니다. 신경망이 어떤 입력 부분에 집중해야 하는지를 나타내는 이러한 표현은 모델이 방대한 양의 데이터를 면밀히 검토 및 분석하면서 서서히 학습하게 됩니다.
이 두 가지 기술을 함께 사용하면 서로 다른 요소들이 멀리 떨어져서도 영향을 주고받으며 관계를 형성하고 있는 미묘한 방식과 맥락을 비순차적으로 분석할 수 있습니다.
데이터를 비순차적으로 처리할 수 있는 기능 덕분에 복잡한 문제를 여러 개의 더 작은 동시 연산으로 분해할 수 있습니다. 당연히 GPU는 이런 유형의 문제를 병렬로 해결하는 데 매우 적합하므로 레이블이 없는 대규모 데이터 세트와 거대한 트랜스포머 네트워크의 대규모 처리를 지원할 수 있습니다.
지금까지 AI 모델은 인식과 이해에 초점을 맞춰왔습니다.
그러나 수천억 개 매개변수가 있는 인터넷 규모의 데이터 세트로 훈련된 거대 언어 모델이 등장함에 따라 사람처럼 콘텐츠를 생성할 수 있는 AI 모델의 능력이 잠금 해제되었습니다.
모델들은 실로 놀라운 방식으로 읽고, 쓰고, 코딩하고, 그리고, 제작할 수 있고 산업 전반에서 인간의 창의력을 강화하고 생산성을 높여 세계에서 가장 어려운 문제들을 해결할 수 있습니다.
이러한 LLM이 적용되는 사례는 무수히 많습니다. 예를 들어, AI 시스템은 단백질 서열의 언어를 배워 유용한 화합물을 제공함으로써 과학자들이 생명을 살리는 획기적인 백신을 개발하는 데 도움을 줄 수 있습니다.
또는 창의력 발휘, 소통, 창작 등 인간이 제일 잘하는 일을 수행하는 데 컴퓨터가 도움을 제공할 수도 있습니다. 집필자 장애(writer’s block)로 고생하는 작가는 거대 언어 모델을 사용하여 창의력에 불을 붙일 수 있습니다.
소프트웨어 프로그래머는 LLM을 활용하여 자연어 설명을 기반으로 코드를 생성하면서 생산성을 높일 수 있습니다.
전체 컴퓨팅 스택에서 발전이 이루어지면서 더욱 정교한 LLM을 개발할 수 있게 되었습니다. 2020년 6월 OpenAI는 짧은 텍스트 프롬프트에 기반하여 텍스트와 코드를 생성하는 1,750억 개 매개변수를 가진 모델인 GPT-3를 출시했습니다. 2021년 NVIDIA와 Microsoft가 개발한 Megatron-Turing Natural Language Generation 530B는 독해와 자연어 추론을 수행하는 모델 중 세계 최대 규모에 속하며 매개변수가 5,300억 개에 이릅니다.
LLM의 규모가 커지면서 기능도 향상되었습니다. 텍스트 콘텐츠를 위한 LLM 사용 사례를 광범위하게 분류하면 다음과 같습니다.
생성(예: 스토리 작성, 마케팅 콘텐츠 작성)
요약(예: 법률 패러프레이징, 회의 노트 요약)
번역(예: 언어 간, 텍스트에서 코드로)
분류(예: 독성 분류, 감성 분석(Sentiment Analysis))
챗봇(예: 오픈 도메인 질의응답, 가상 비서)
전 세계의 기업들이 새로운 가능성을 발굴하기 위해 LLM을 활용하기 시작했습니다.
거대 언어 모델은 아직 초기 단계에 있으며, 엄청난 가능성을 가지고 있습니다. 제로샷 러닝 기능을 갖춘 단일 모델이 사람처럼 즉시 사고를 이해하고 생성하여 상상할 수 있는 거의 모든 문제를 해결할 수도 있습니다. 사용 사례가 모든 기업, 모든 비즈니스 거래, 모든 업종에 걸쳐 존재하므로 가치 창출 기회가 어마어마합니다.
거대 언어 모델은 비지도 학습을 사용하여 훈련됩니다. 비지도 학습을 통해 모델은 레이블이 없는 데이터 세트를 사용하여 이전에 몰랐던 데이터 패턴을 찾을 수 있습니다. 이 방법을 사용하면 AI 모델을 구축할 때 가장 큰 어려움 중 하나인 광범위한 데이터 레이블링이 필요하지 않습니다.
LLM은 방대한 훈련 프로세스를 거치기 때문에 특정 작업을 위한 훈련 없이 여러 사용 사례에 모델을 적용할 수 있습니다. 이런 유형의 모델을 파운데이션 모델이라고 합니다.
많은 지도 또는 훈련 없이 다양한 목적을 위해 텍스트를 생성할 수 있는 파운데이션 모델의 기능을 제로샷 러닝이라고 합니다. 이 기능의 다양한 변형에는 원샷 또는 퓨샷 러닝이 포함되는데, 특정 사용 사례에서 더 잘 이해하고 작동하도록 작업 수행 방법을 보여주는 하나 이상의 예제를 파운데이션 모델에 제공하는 것입니다.
거대 언어 모델의 엄청난 제로샷 러닝 기능에도 불구하고, 개발자와 기업에는 이러한 시스템을 원하는 방식으로 작동하도록 길들이려 하는 본능적인 욕구가 있습니다. 특정 사용 사례를 위해 이러한 거대 언어 모델을 배포하려면 몇 가지 기술을 사용하여 모델을 맞춤화함으로써 정확도를 더욱 높일 수 있습니다. 몇 가지 기술로는 프롬프트 튜닝, 파인 튜닝, 어댑터 등이 있습니다.
그림 2. 인코더-디코더 언어 모델의 구조를 보여주는 이미지
거대 언어 모델은 각기 다른 사용 사례 유형에 적합한 몇 가지 그룹으로 나눌 수 있습니다.
거대 언어 모델을 개발하고 유지하는 데 필요한 상당한 자본 투자, 대규모 데이터 세트, 전문 기술 지식, 대규모 컴퓨팅 인프라는 대부분의 기업에 진입 장벽이 되어왔습니다.
그림 3. 트랜스포머 모델 훈련에 필요한 컴퓨팅
NVIDIA는 거대 언어 모델을 쉽게 구축하고 배포할 수 있도록 다음과 같은 도구를 제공합니다.
여러 어려움에도 불구하고 거대 언어 모델의 가능성은 엄청납니다. NVIDIA와 NVIDIA의 에코시스템은 소비자, 개발자 및 기업이 거대 언어 모델의 혜택을 누릴 수 있도록 최선을 다하고 있습니다.