추천 시스템(Recommendation System)

추천 시스템(또는 추천자 시스템)은 데이터를 사용하여 기하급수적으로 증가하는 옵션 중에서 사람들이 찾고 있는 것을 예측하고 추리고 발견하는 데 도움을 주는 머신 러닝의 한 종류입니다.

추천 시스템이란?

추천 시스템은 일반적으로 빅데이터를 사용하여 소비자에게 추가 제품을 제안하거나 추천하는 머신 러닝과 연관된 인공지능 또는 AI 알고리즘입니다. 이러한 시스템은 과거 구매 이력, 검색 기록, 인구통계 정보 및 기타 요인을 포함한 다양한 기준을 기반으로 할 수 있습니다. 추천 시스템은 사용자가 스스로 찾지 못했을 수도 있는 제품과 서비스를 발견할 수 있도록 도와주므로 매우 유용합니다.

추천 시스템은 상호 작용에 대해 수집된 데이터를 사용하여 기호, 이전 결정, 사람 및 제품의 특성을 파악하도록 훈련됩니다. 여기에는 노출, 클릭, 좋아요, 구매 내역 등이 포함됩니다. 추천 시스템은 고도로 개인화된 수준에서 소비자의 관심과 욕구를 예측할 수 있기 때문에 콘텐츠 및 제품 공급업체가 가장 선호하는 시스템입니다. 책부터 비디오, 건강 강좌, 의류에 이르기까지 관심을 끌 만한 거의 모든 제품 또는 서비스로 소비자를 유도할 수 있습니다.

How to suggest products to consumers?

추천 시스템의 유형

수많은 추천 알고리즘과 기법이 있지만 대부분은 협업 필터링, 콘텐츠 필터링, 맥락 필터링이라는 큰 범주에 속합니다.

협업 필터링 알고리즘은 많은 사용자로부터 얻은 기호 정보(협업 부분)를 기반으로 항목(필터링 부분)을 추천합니다. 이 접근 방식은 추천 알고리즘이 학습한 사용자 기호 행동(사용자와 항목 간의 이전 상호 작용에 대해 주어진 정보)의 유사성을 사용하여 미래 상호 작용을 예측합니다. 추천 시스템은 사용자의 과거 행동(예: 이전에 구입한 항목이나 해당 항목에 부여한 평점) 그리고 다른 사용자의 유사한 결정을 토대로 모델을 구축합니다. 영화 선택과 같이 과거에 비슷한 결정과 구매를 한 적이 있는 사용자 그룹이 있다면 향후 추가 선택에도 의견 일치를 보일 확률이 높다는 아이디어를 기반으로 합니다. 예를 들어, 협업 필터링 추천 시스템이 한 사용자와 다른 사용자가 비슷한 영화 취향을 공유한다는 것을 알고 있다면, 다른 사용자가 이미 좋아한 영화를 추천할 수 있습니다.

Collaborative filtering.

반면 콘텐츠 필터링은 항목의 속성이나 특징(콘텐츠 부분)을 사용하여 사용자의 기호와 유사한 다른 항목을 추천합니다. 이 접근 방식은 사용자와 사용자가 상호 작용한 항목에 대한 정보(예: 사용자의 연령, 레스토랑 요리의 범주, 영화에 대한 평균 리뷰)가 주어지면 항목 특징과 사용자 특징 간 유사성을 기반으로 새로운 상호 작용의 가능성을 모델링합니다. 예를 들어, 콘텐츠 필터링 추천 시스템에서 사용자가 영화 '유브 갓 메일'과 '시애틀의 잠 못 이루는 밤'을 좋아한 사실을 알게 된다면, '볼케이노'처럼 장르 및/또는 출연진이 동일한 다른 영화를 추천할 수 있습니다.

Content-based filtering.

하이브리드 추천 시스템 은 상기 유형의 장점을 결합하여 더 포괄적인 추천 시스템을 생성합니다.

맥락 필터링 에는 추천 프로세스에 사용자의 맥락 정보가 포함됩니다. Netflix는 NVIDIA GTC에서 추천을 맥락 시퀀스 예측으로 구성하여 추천을 개선하는 방법에 대해 이야기했습니다. 이 접근 방식은 맥락별 사용자 행동 시퀀스와 현재 맥락을 사용하여 다음 행동의 확률을 예측합니다. Netflix의 예에서는 영화를 시청했을 당시 거주 국가, 사용한 장치, 날짜 및 시간 등 각 사용자에 대해 하나의 시퀀스가 주어지면 다음에 무엇을 볼지 예측하도록 모델을 훈련했습니다.

Contextual sequence data.

사용 사례 및 분야

전자 상거래 및 소매: 머천다이징 개인화

사용자가 스카프를 이미 구매했다고 생각해 보겠습니다. 스타일이 완성될 수 있도록 잘 어울리는 모자를 추천하면 어떨까요? 이 기능은 Amazon, Walmart, Target 등의 전자 상거래 플랫폼에서 AI 기반 알고리즘을 통해 '완벽한 스타일 제안' 또는 '이런 상품은 어떠세요?' 등과 같은 섹션으로 종종 구현됩니다.

지능형 추천 시스템을 도입하면 평균적으로 웹 제품의 전환율이 22.66% 상승합니다.

미디어 및 엔터테인먼트: 콘텐츠 개인화

AI 기반 추천 엔진은 개인의 구매 행동을 분석하고 개인의 관심사와 가장 일치하는 콘텐츠를 제안하는 데 도움이 되는 패턴을 감지할 수 있습니다. Google과 Facebook이 광고를 추천할 때 적극적으로 적용하고 Netflix가 영화와 TV 프로그램을 추천할 때 백그라운드에서 실행하는 것이 바로 이 엔진입니다.

뱅킹 개인화

수백만 명이 디지털 방식으로 소비하는 상품인 뱅킹은 추천을 활용하기에 매우 적합한 분야입니다. 유사한 사용자 수천 명의 데이터와 함께 고객의 상세한 재무 상황 및 과거 기호를 안다는 것은 매우 강력한 이점입니다.

추천을 위한 심층 신경망 모델

인공 신경망(ANN)에는 다음과 같은 다양한 변형이 있습니다.

정보가 한 층에서 다음 층으로만 전달되는 ANN을 순방향 신경망이라고 합니다. 다층 퍼셉트론(MLP)은 순방향 ANN의 한 유형으로, 입력층, 은닉층, 출력층 등 최소 3개의 노드 층으로 구성됩니다. MLP는 다양한 시나리오에 적용할 수 있는 유연한 신경망입니다.
합성곱 신경망은 개체를 식별하는 이미지 분석 도구입니다.
순환 신경망은 언어 패턴과 시퀀스 데이터를 파싱하는 수학 엔진입니다.

딥 러닝(DL) 추천 시스템 모델은 인수 분해와 같은 기존 기법을 기반으로 변수 및 임베딩 간의 상호 작용을 모델링하여 범주형 변수를 처리합니다. 임베딩은 유사한 엔터티(사용자 또는 항목)가 벡터 공간에서 비슷한 거리를 갖도록 엔터티 특징을 나타내는 학습된 숫자 벡터입니다. 예를 들어, 딥 러닝 방식의 협업 필터링에서는 사용자 및 항목 상호 작용을 토대로 하는 사용자 및 항목 임베딩(잠재 특징 벡터)을 신경망을 통해 학습합니다.

또한 DL 기법은 방대하고 빠르게 성장하는 새로운 신경망 아키텍처와 최적화 알고리즘을 활용하여 대량의 데이터를 학습하고, 특징 추출을 위해 딥 러닝의 파워를 사용하며, 더 뛰어나게 표현되는 모델을 구축합니다.

추천 시스템을 위한 최신 DL 기반 모델: 추천 시스템 외에도 이미지, 텍스트, 음성 분석 등 다양한 영역의 광범위한 신경망 아키텍처 및 애플리케이션을 아우르는 NVIDIA GPU 가속 DL 모델 포트폴리오에는 DLRM, 와이드 & 딥(W&D), 뉴럴 협업 필터링(NCF), 변분 오토인코더(VAE), Bert(NLP용) 등이 포함됩니다. 이 모델들은 텐서플로 및 파이토치로 훈련할 수 있도록 설계 및 최적화되었습니다.

뉴럴 협업 필터링

뉴럴 협업 필터링(NCF) 모델은 사용자 및 항목 상호 작용을 기반으로 협업 필터링을 제공하는 신경망입니다. 이 모델은 비선형성 관점에서 행렬 분해를 처리합니다. NCF 텐서플로는 일련의 (사용자 ID, 항목 ID) 쌍을 입력으로 받은 다음, 이를 행렬 분해 단계(여기서 임베딩을 곱함)와 다층 퍼셉트론(MLP)에 각각 공급합니다.

그런 다음 행렬 분해의 출력과 MLP의 출력이 결합되어 입력 사용자가 입력 항목과 상호 작용할 가능성이 있는지 여부를 예측하는 단일 밀집층으로 공급됩니다.

Combining matrix factorization and the MLP network outputs.

협업 필터링을 위한 변분 오토인코더

오토인코더 신경망은 은닉층에서 얻은 표현을 사용하여 출력층에서 입력층을 재구성합니다. 협업 필터링용 오토인코더는 사용자-항목 행렬의 비선형 표현을 학습하고 결측값을 결정하여 이를 재구성합니다.

협업 필터링용 NVIDIA GPU 가속 변분 오토인코더(VAE-CF)는 협업 필터링을 위한 변분 오토인코더에서 처음 설명된 아키텍처를 최적화하여 구현한 것입니다. VAE-CF는 사용자와 항목 간 상호 작용을 기반으로 협업 필터링을 제공하는 신경망입니다. 이 모델의 훈련 데이터는 사용자와 항목 간의 각 상호 작용을 나타내는 사용자-항목 ID 쌍으로 구성됩니다.

모델은 인코더와 디코더의 두 부분으로 구성됩니다. 인코더는 특정 사용자의 상호 작용을 포함하는 입력 벡터를 n차원 변분 분포로 변환하는 순방향 완전 연결 신경망입니다. 이 변분 분포는 사용자(또는 임베딩)의 잠재 특징 표현을 얻는 데 사용됩니다. 이 잠재 표현은 인코더와 유사한 구조의 순방향 신경망인 디코더로 전달됩니다. 결과는 특정 사용자에 대한 항목 상호 작용 확률 벡터입니다.

Encoding and decoding.

맥락 시퀀스 학습

순환 신경망(RNN)은 데이터 패턴을 더 잘 인식할 수 있도록 메모리 또는 피드백 루프를 갖춘 신경망의 한 종류입니다. RNN은 자연어 처리(NLP)와 같이 맥락과 시퀀스를 처리하는 어려운 작업을 해결하며, 맥락 시퀀스 기반 추천에도 사용됩니다. 시퀀스 학습이 다른 작업과 다른 점은 입력 데이터의 시간 의존성을 학습하기 위해 LSTM(장단기 메모리) 또는 GRU(Gated Recurrent Units)와 같은 활성 데이터 메모리가 있는 모델을 사용해야 한다는 것입니다. 과거 입력이 저장되는 이러한 메모리는 성공적인 시퀀스 학습에 매우 중요합니다. Bert(Bidirectional Encoder Representations from Transformers)와 같은 트랜스포머 딥 러닝 모델은 RNN의 대안으로, 어텐션 기법을 적용합니다. 즉, 문장 앞뒤의 가장 관련성 높은 단어에 주의를 집중하여 문장을 파싱합니다. 트랜스포머 기반 딥 러닝 모델은 순차 데이터를 순서대로 처리할 필요가 없으므로 RNN보다 훨씬 더 고도화된 병렬화를 허용하고 GPU에서 훈련 시간을 크게 단축합니다.

NMT components.

NLP 응용 사례에서는 워드 임베딩과 같은 기술을 사용하여 입력 텍스트가 단어 벡터로 변환됩니다. 워드 임베딩을 사용하면 맥락을 이해하기 위해 문장의 각 단어가 RNN의 변형인 트랜스포머 또는 Bert에 전달되기 전에 숫자 세트로 변환됩니다. 신경망이 각 단어의 의미 및 맥락 정보와 같은 고유 속성을 인코딩하며 스스로 학습하는 동안, 이러한 숫자 공간에서 유사한 단어는 서로 가까이 배치되고 서로 다른 단어는 멀리 배치되도록 이 숫자들은 시간이 지남에 따라 변경됩니다. 이러한 DL 모델은 출력 시퀀스를 생성하는 데 사용되는 다음 단어 예측, 텍스트 요약과 같은 특정 언어 작업을 위해 적합한 출력을 제공합니다.

Input text converted into word vectors using word embedding.

세션 맥락 기반 추천은 딥 러닝과 NLP에서 달성한 시퀀스 모델링의 발전을 추천에 적용합니다. 세션의 사용자 이벤트 시퀀스(예: 조회된 제품, 상호 작용 데이터 및 시간)로 훈련된 RNN 모델은 세션의 다음 항목을 예측하는 방법을 학습합니다. 세션의 사용자 항목 상호 작용은 문장의 단어와 유사한 방식으로 임베딩됩니다. 예를 들어, 시청한 영화는 숫자 세트로 변환된 후 맥락을 이해하기 위해 LSTM, GRU, 트랜스포머와 같은 RNN의 변형으로 전달됩니다.

와이드 & 딥

와이드 & 딥은 병렬로 작동하는 와이드 모델과 딥 모델이라는 두 부분의 출력을 사용하는 신경망의 한 종류로, 두 모델의 출력을 합산하여 상호 작용 확률을 생성합니다. 와이드 모델은 변환을 사용하는 특징의 일반화 선형 모델입니다. 딥 모델은 1,024개의 뉴런이 있는 은닉 MLP층 5개로 구성된 밀집 신경망(DNN)으로, 각 층은 특징의 밀집 임베딩으로 시작됩니다. 범주형 변수는 학습된 임베딩 또는 사용자 결정 임베딩을 통해 DNN으로 전달되기 전에 연속 벡터 공간에 임베딩됩니다.

이 모델은 두 가지 데이터 패턴 학습 방법인 '딥(deep)'과 '섈로(shallow)'를 제공하기 때문에 추천 작업에 매우 적합합니다. 복잡한 비선형 DNN은 데이터에서 수많은 관계 표현을 학습하고 임베딩을 통해 유사한 항목으로 일반화할 수 있지만 이를 잘 수행하기 위해서는 이러한 관계의 예를 많이 살펴봐야 합니다. 반면, 선형 부분은 훈련 세트에서 단지 몇 번만 발생할 수 있는 단순한 관계를 '기억'할 수 있습니다.

이러한 두 표현 채널은 결합되어 일반적으로 독자적으로 사용될 때보다 더 강력한 모델링 능력을 제공합니다. NVIDIA와 협력해 온 많은 업계 파트너는 더 전통적인 머신 러닝 모델의 대체재로 와이드 & 딥을 사용하여 오프라인 및 온라인 메트릭이 개선되었다고 보고했습니다.

TensorRT engine.

DLRM

DLRM은 Facebook의 연구를 통해 소개된 DL 기반 추천 모델입니다. 추천 시스템 훈련 데이터에 일반적으로 존재하는 범주형 입력 및 숫자 입력을 모두 사용하도록 설계되었습니다. 범주형 데이터를 처리하기 위해 임베딩층은 다층 퍼셉트론(MLP)에 전달하기 전에 각 범주를 밀집 표현에 매핑합니다. 숫자 특징은 MLP에 직접 전달될 수 있습니다.

다음 단계에서는 임베딩 벡터와 처리된 밀집 특징으로 구성된 모든 쌍 사이에서 내적을 구해 서로 다른 특징의 2차수 상호 작용을 명시적으로 계산합니다. 이러한 쌍별 상호 작용은 사용자와 항목 쌍 간의 상호 작용 가능성을 계산하기 위해 최상위 MLP에 전달됩니다.

Probability of clicking on a recommendation.

다른 DL 기반 추천 방식과 비교할 때 DLRM은 두 가지 측면에서 다릅니다. 첫째, 특징 상호 작용을 명시적으로 계산하는 동시에 상호 작용의 차수를 쌍별 상호 작용으로 제한합니다. 둘째, DLRM은 임베딩된 각 특징 벡터(범주형 특징에 해당)를 단일 유닛으로 취급하는 반면, 다른 방법(예: 딥 및 크로스)은 특징 벡터의 각 요소를 서로 다른 혼합항(cross term)을 산출해야 하는 새로운 유닛으로 취급합니다. 이러한 설계는 경쟁력 있는 정확도를 유지하면서 연산/메모리 비용을 줄이는 데 도움이 됩니다.

DLRM은 아래에서 설명할 고성능 DL 기반 추천 시스템을 구축하기 위한 프레임워크인 NVIDIA Merlin의 일부입니다.

GPU를 사용할 때 추천 시스템이 더 잘 실행되는 이유

추천 시스템은 가장 인기 있는 소비자 플랫폼에서 참여를 유도할 수 있습니다. 데이터의 규모가 엄청나게 커지면서(수천만 개에서 수십억 개의 예제) 전통적인 방법 대비 DL 기법의 이점이 입증되고 있습니다. 결과적으로, 더욱 정교한 모델과 빠른 데이터 증가의 결합은 컴퓨팅 리소스에 대한 기준을 높였습니다.

여러 머신 러닝 알고리즘의 바탕이 되는 수학 연산은 행렬 곱셈인 경우가 많습니다. 이러한 유형의 연산은 고도로 병렬화하여 GPU로 크게 가속화할 수 있습니다.

GPU는 수백 개의 코어로 구성되어 있고 이러한 코어는 수천 개의 스레드를 병렬로 처리할 수 있습니다. 신경망은 수많은 동일 뉴런에서 생성되므로 본질적으로 병렬 처리 가능성이 매우 높습니다. 이러한 가능성은 CPU만 사용하는 플랫폼보다 10배 더 높은 성능을 제공할 수 있는 GPU로 자연스럽게 연결됩니다. 이러한 이유로 GPU는 복잡한 대규모 신경망 기반 시스템을 훈련시키기 위한 플랫폼으로 선택되어 왔으며, 병렬성이 특징인 추론 작업 또한 GPU에서 실행하기에 매우 알맞습니다.

The difference between a CPU and GPU.

NVIDIA Merlin 추천 시스템 애플리케이션 프레임워크를 사용하는 이유는?

거대한 데이터 세트, 복잡한 데이터 전처리 및 특징 공학 파이프라인, 광범위한 반복 실험 등 대규모 추천 시스템 솔루션의 성능을 위해 해결해야 할 과제가 여러 가지 있습니다. 대규모 DL 추천 시스템의 훈련 및 추론을 위한 연산 수요를 충족하기 위해 GPU 기반 추천 솔루션은 빠른 특징 공학과 높은 훈련 처리량(빠른 실험 및 프로덕션 재훈련 모두 가능)을 제공합니다. 저지연 고처리량 추론도 제공합니다.

NVIDIA Merlin은 NVIDIA GPU 기반 가속화를 통해 실험부터 프로덕션에 이르는 모든 추천 시스템 개발 단계를 촉진하기 위해 개발된 오픈 소스 애플리케이션 프레임워크 및 에코시스템입니다.

이 프레임워크는 추천 데이터 세트에 공통적으로 적용되는 연산자에 대해 빠른 특징 공학 및 전처리를 제공하고 여러 표준 딥 러닝 기반 추천 모델의 고처리량 훈련을 지원합니다. 여기에는 빠른 실험과 프로덕션 재훈련이 가능한 와이드 & 딥, 딥 크로스 네트워크, DeepFM, DLRM 등이 포함됩니다. 프로덕션 배포를 위해 Merlin은 저지연 고처리량 추론도 제공합니다. 이러한 요소들은 결합되어 GPU 기반 딥 러닝 추천 시스템 모델의 훈련 및 배포를 위한, 사용하기 쉽고 성능이 뛰어난 엔드투엔드 프레임워크를 제공합니다.

NVIDIA Merlin.

또한 Merlin에는 전통적인 방법보다 더 나은 예측을 제공하는 딥 러닝 기반 추천 시스템을 구축하는 데 필요한 도구도 포함되어 있습니다. 파이프라인의 각 단계는 수백 테라바이트의 데이터를 지원하도록 최적화되어 있으며, 모두 사용하기 쉬운 API를 통해 액세스할 수 있습니다.

NVTabular는 GPU 가속 특징 변환과 전처리를 통해 데이터 준비 시간을 단축합니다.

HugeCTR은 여러 GPU와 노드에 훈련을 분산하도록 설계된 GPU 가속 심층 신경망 훈련 프레임워크입니다. 모델 병렬 임베딩 테이블과 데이터 병렬 신경망 및 그 변형(예: 와이드 앤 딥 러닝(WDL), 딥 크로스 네트워크(DCN), DeepFM, 딥 러닝 추천 모델(DLRM))을 지원합니다.

Dense and sparse inputs.

NVIDIA Triton™ Inference Server 및 NVIDIA® TensorRT™는 특징 변환 및 신경망 실행을 위해 GPU에서 프로덕션 추론을 가속화합니다.

NVIDIA GPU 가속 엔드투엔드 데이터 사이언스 및 DL

NVIDIA Merlin은 NVIDIA RAPIDS™를 기반으로 구축되었습니다. CUDA를 기반으로 하는 오픈 소스 소프트웨어 라이브러리인 RAPIDS™ 제품군을 사용하면 Pandas 및 Scikit-learn API와 같은 익숙한 인터페이스를 계속 사용하면서 엔드투엔드 데이터 사이언스 및 분석 파이프라인을 전적으로 GPU에서 실행할 수 있습니다.

Data preparation, model training, and visualization.

NVIDIA GPU 가속 딥 러닝 프레임워크

GPU 가속 딥 러닝 프레임워크는 맞춤형 심층 신경망을 유연하게 설계하고 훈련할 수 있는 기능과 파이썬, C/C++와 같이 일반적으로 사용되는 프로그래밍 언어를 위한 인터페이스를 제공합니다. MXNet, 파이토치, 텐서플로 등과 같이 널리 사용되는 딥 러닝 프레임워크는 고성능 멀티 GPU 가속 훈련을 제공하기 위해 NVIDIA GPU 가속 라이브러리를 사용합니다.

Popular deep learning frameworks.