생성형 AI는 사용자가 다양한 입력을 기반으로 새로운 콘텐츠를 신속히 생성할 수 있게 해줍니다. 이러한 모델의 입력과 출력에는 텍스트, 이미지, 사운드, 애니메이션, 3D 모델, 기타 여러 유형의 데이터가 포함될 수 있습니다.
생성형 AI 모델은 신경망을 사용하여 기존 데이터 내의 패턴과 구조를 식별하고 이를 토대로 독창적인 새 콘텐츠를 생성합니다.
생성형 AI 모델의 획기적인 기술 중 하나는 모델 훈련에 비지도 및 준지도 학습을 포함하여 여러 학습 방법을 활용할 수 있다는 점입니다. 이 덕분에 조직은 레이블이 지정되지 않은 대량의 데이터를 더욱 쉽고 빠르게 활용하여 파운데이션 모델을 만들 수 있게 되었습니다. 이름에서 알 수 있듯이, 파운데이션 모델은 여러 가지 작업 수행이 가능한 AI 시스템을 구축할 때 기반으로 사용할 수 있습니다.
파운데이션 모델의 예로는 GPT-3, Stable Diffusion 등이 있는데, 이들 모델은 사용자가 언어의 힘을 활용할 수 있게 해줍니다. 예를 들어, GPT-3를 기반으로 하는 ChatGPT와 같은 인기 애플리케이션은 사용자로부터 간단한 텍스트 요청을 받아 이를 기반으로 에세이를 작성합니다. Stable Diffusion은 사용자가 텍스트를 입력하면 사실적인 이미지를 생성합니다.
생성형 AI 모델이 성공적이기 위해서는 다음의 세 가지 핵심 요건을 충족해야 합니다.
그림 1: 성공적인 생성형 AI 모델의 세 가지 요건
생성 모델에는 여러 유형이 있으며, 각각의 긍정적인 속성을 결합하면 훨씬 더 강력한 모델을 생성할 수 있습니다.
몇 가지 유형을 살펴보면 아래와 같습니다.
확산 모델: 노이즈 제거 확산 확률 모델(DDPM)이라고도 하는 확산 모델은 학습 과정 동안 2단계 프로세스를 통해 잠재 공간의 벡터를 알아내는 생성 모델입니다. 이 두 단계는 순방향 확산과 역방향 확산입니다. 순방향 확산 프로세스는 훈련 데이터에 천천히 무작위 노이즈를 추가하고, 역방향 확산 프로세스는 이 노이즈를 제거하여 데이터 샘플을 재구성합니다. 완전한 무작위 노이즈부터 시작하여 역으로 노이즈 제거 프로세스를 실행하면 새로운 데이터를 생성할 수 있습니다.
그림 2: 확산 및 노이즈 제거 프로세스
확산 모델은 변분 오토인코더(VAE) 모델보다 훈련에 더 긴 시간이 소요될 수 있지만, 이 2단계 프로세스 덕분에 무한대는 아니더라도 수백 개의 층을 훈련시킬 수 있습니다. 즉, 확산 모델은 생성형 AI 모델을 구축할 때 일반적으로 가장 높은 품질의 출력을 제공합니다.
또한 확산 모델은 규모가 크고, 고품질의 출력을 제공하며, 유연하고, 일반적인 활용 사례에 가장 적합한 것으로 간주되기 때문에 파운데이션 모델로 분류되기도 합니다. 그러나 역방향 샘플링 프로세스로 인해 파운데이션 모델을 실행하는 데는 시간이 오래 걸립니다.
확산 모델의 수학적 원리에 대한 자세한 내용은 이 블로그 게시글을 참조하세요.
이 두 개의 모델은 함께 훈련을 거치며 더 똑똑해집니다. 생성망은 더 나은 콘텐츠를 생성하고 판별망은 생성된 콘텐츠를 더 잘 판별하게 됩니다. 이 절차는 생성된 콘텐츠와 기존 콘텐츠 간의 구분이 힘들어질 때까지 반복되며, 매 반복 후 두 신경망은 지속적으로 향상됩니다.
GAN은 고품질 샘플을 제공하고 출력을 빠르게 생성하지만, 샘플의 다양성이 약하기 때문에 도메인 특화 데이터 생성에 더 적합합니다.
생성 모델을 개발하는 데 중요한 또 다른 요소는 기저 아키텍처입니다. 가장 많이 사용되는 것 중의 하나는 트랜스포머 네트워크입니다. 생성형 AI의 맥락에서 트랜스포머 네트워크의 작동 방식을 이해하는 것이 중요합니다.
트랜스포머 네트워크: 순환 신경망과 비슷한 트랜스포머는 순차 입력 데이터를 비순차적으로 처리하도록 설계되었습니다.
트랜스포머가 텍스트 기반의 생성형 AI 애플리케이션에 특히 적합한 이유는 셀프 어텐션과 위치 인코딩이라는 두 가지 메커니즘 때문입니다. 이 두 가지 기술 모두 시간을 표현하는 데 도움이 됩니다. 장거리에 걸쳐 단어들이 서로 관계를 맺고 있는 방식에 주목하는 알고리즘을 구현하는 데 사용될 수도 있습니다.
그림 3: 트랜스포머를 정의한 2017년 논문의 공동 저자 8명 중 한 명인 Aidan Gomez의 프레젠테이션에서 가져온 이미지(출처)
셀프 어텐션 레이어는 입력의 각 부분에 가중치를 할당합니다. 이 가중치는 나머지 부분에 맥락을 제공하는 측면에서 해당 입력이 갖는 중요성을 나타냅니다. 위치 인코딩은 입력 단어가 나타나는 순서를 표현한 것입니다.
트랜스포머는 레이어라고도 하는 여러 개의 트랜스포머 블록으로 구성되어 있습니다. 예를 들어, 트랜스포머에는 토큰화된 데이터 스트림을 판독하고 예측하기 위해 함께 작동하는 셀프 어텐션 레이어, 피드포워드 레이어, 정규화 레이어가 있을 수 있습니다. 토큰화된 데이터 스트림에는 텍스트는 물론 단백질 염기 서열과 심지어 이미지 조각도 포함될 수 있습니다.
생성형 AI는 창작자, 엔지니어, 연구자, 과학자들의 워크플로우를 간소화할 수 있는 강력한 도구입니다. 모든 산업과 개인이 생성형 AI를 활용할 수 있습니다.
생성형 AI 모델은 텍스트, 이미지, 오디오, 동영상, 코드 등의 입력을 받고 이러한 모든 양식으로 새로운 콘텐츠를 생성할 수 있습니다. 예를 들어, 텍스트 입력을 이미지로 변환하거나, 이미지를 노래로 바꾸거나, 동영상을 텍스트로 바꿀 수 있습니다.
그림 4: 각 범주별로 가능한 생성형 AI 용 사례를 보여주는 다이어그램
생성 모델의 영향력은 광범위하며 응용 사례는 계속 증가하고 있습니다. 아래에는 교통, 자연과학, 엔터테인먼트 등의 분야가 발전하고 변화하는 데 생성형 AI가 어떻게 도움이 되고 있는지를 보여주는 몇 가지 예가 나와 있습니다.
진화하고 있는 분야인 생성 모델은 여전히 초기 단계에 있으며 다음과 같은 영역에서 성장할 수 있다고 여겨집니다.
NVIDIA, Cohere, Microsoft 등의 많은 기업은 이러한 문제를 해결하는 데 도움이 되는 여러 서비스와 도구를 제공하여 생성형 AI 모델의 지속적인 성장과 개발을 지원한다는 목표를 추구하고 있습니다. 이러한 제품과 플랫폼은 대규모 생성형 AI 모델을 구축하고 실행하는 데 수반되는 복잡성을 제거합니다.
생성형 AI는 여러 가지 이유로 중요합니다. 생성형 AI의 주요 이점을 몇 가지 꼽자면 다음과 같습니다.
종합하면, 생성형 AI는 AI 연구개발의 중요 영역으로, 광범위한 산업 및 응용 사례에 막대한 영향을 미칠 잠재력을 지녔습니다.
참고: 생성 모델의 기능을 설명한 이 "생성형 AI의 이점은?" 섹션은 생성형 AI 모델 ChatGPT가 작성한 것입니다.