GPU 가속 Apache Spark

GPU 가속 Apache Spark 데이터 분석, 머신 러닝, 딥 러닝 파이프라인용

Apache Spark 3.0 데이터 사이언스 파이프라인을 코드 변경 없이 GPU 가속화하여 인프라 비용을 대폭 낮추면서 데이터 처리 및 모델 트레이닝 속도를 높여 보십시오.

Apache Spark를 선택해야 하는 이유

NVIDIA GPU와 함께하는 Spark의 주요 혜택

더욱 빨라진 실행 시간

더욱 빨라진 실행 시간

파이프라인의 다음 단계로 빠르게 넘어갈 수 있도록 데이터 준비 작업의 성능을 가속화합니다. 이를 통해 모델 트레이닝 속도를 높일 수 있는 동시에 데이터 사이언티스트와 엔지니어가 가장 중요한 활동에 집중할 수 있는 시간이 확보됩니다.

분석에서 AI까지의 과정을 간소화

분석에서 AI까지의 과정을 간소화

Spark 3.0은 데이터 수집부터 모델 트레이닝과 비주얼라이제이션에 이르는 엔드 투 엔드 파이프라인을 구현합니다. Spark 및 ML/DL(딥 러닝) 프레임워크 모두에 동일한 GPU 가속 인프라를 사용하여 별도의 클러스터에 대한 필요성을 없애고 전체 파이프라인에 GPU 가속화를 적용할 수 있습니다.

인프라 비용 절감

인프라 비용 절감

더 적은 비용으로 더 많은 작업 수행: NVIDIA® GPU의 Spark는 CPU에 비해 적은 하드웨어로 작업을 더 빠르게 완수하므로 조직의 시간을 절감하는 것은 물론, 온프레미스 자본 비용 또는 클라우드 운영 비용도 절감해 줍니다.

Spark 3.0 혁신

수많은 데이터 처리 작업의 “당혹스러운 병렬” 성질을 감안하면, Spark 데이터 처리 쿼리에 당연히 GPU의 아키텍처를 활용해야 하며 이는 GPU가 AI에서 DL 워크로드를 가속화하는 방식과 유사합니다. GPU 가속화는 개발자에게 투명하며 이러한 혜택을 얻기 위해 코드를 변경할 필요가 없습니다. 투명한 GPU 가속화를 제공하는 데 기여한 Spark 3.0의 주요 발전 사항 3가지:

Spark 3.0을 위한 새로운 RAPIDS 가속기

NVIDIA CUDA® 는 NVIDIA GPU 아키텍처에서의 연산 작업 가속화를 지원하는 혁신적인 병렬 컴퓨팅 아키텍처입니다. NVIDIA에서 개발된 RAPIDS는 데이터 사이언스 파이프라인의 GPU 가속화를 지원하는 CUDA를 기반으로 계층화된 일련의 오픈 소스 라이브러리입니다.

NVIDIA가 제작한 Spark 3.0용 RAPIDS 가속기는 Spark SQL과 DataFrame 작업의 성능을 대폭 향상해 ETL 파이프라인을 가로채서 가속화합니다.

Spark 구성 요소 수정

Spark 3.0은 RAPIDS 가속기가 SQL 및 DataFrame 연산자 가속화를 위해 연결되는 Catalyst 쿼리 최적화 프로그램의 주상 처리를 지원합니다. 쿼리 계획을 실행할 때 이러한 연산자는 Spark 클러스터 내부의 GPU에서 실행될 수 있습니다.

또한, NVIDIA는 Spark 프로세스 간 데이터 전송을 최적화하는 새로운 Spark 셔플 구현을 만들었습니다. 이 셔플 구현은 UCX, RDMA 및 NCCL을 포함하는 GPU 가속 통신 라이브러리에 구축됩니다.

Spark의 GPU 인식 예약

Spark 3.0은 CPU 및 시스템 메모리와 함께 GPU를 첫 번째 클래스 리소스로 인식합니다. 이를 통해 Spark 3.0은 작업 가속화 및 완료에 필요한 경우 해당 GPU 리소스가 포함된 서버로 GPU 가속 워크로드를 직접 배치할 수 있습니다.

NVIDIA 엔지니어가 이 주요 Spark 기능 향상에 기여하여 Spark 독립형, YARN 및 Kubernetes 클러스터의 GPU 리소스에서 Spark 애플리케이션 실행이 가능합니다.

Spark의 가속 분석 및 AI

이제 ML 및 DL 애플리케이션이 동일한 GPU 인프라를 활용하는 동안 ETL 작업이 가속화되므로 Spark 3.0은 분석 및 AI에서 큰 획을 그은 것입니다. 이러한 가속화된 데이터 사이언스 파이프라인의 전체 스택은 아래와 같습니다.

Spark의 가속 분석 및 AI

GPU 가속 Spark 시작하기

Apache Spark 3.0의 미리보기 버전의 RAPIDS 가속기를 일찍 접해보고 싶으시다면 NVIDIA Spark 팀에 문의해 주십시오.

Adobe

NVIDIA는 CPU에서 Spark를 실행하는 것에 비해 NVIDIA 가속 Spark 3.0을 실행함으로써 엄청나게 더 빨라진 성능을 경험하고 있습니다. 이러한 획기적인 GPU 성능 혜택으로 당사의 전체 Adobe Experience Cloud 앱 제품군에서 AI 기반 기능에 대한 완전히 새로운 가능성이 열리고 있습니다.

- William Yan, Adobe머신 러닝 부문 선임 이사

databricks

NVIDIA와의 지속적인 협력으로 Databricks와 Apache Spark 3.0에 대한 RAPIDS 최적화 관련 성능이 향상되어 Adobe 등의 공동 고객이 이점을 누리고 있습니다. 이러한 기여 덕분에 데이터 파이프라인, 모델 트레이닝 및 채점이 더욱 빨라지게 되어 데이터 엔지니어와 데이터 사이언티스트 커뮤니티에서 더 많은 돌파구와 인사이트를 바로 얻을 수 있습니다.

- Matei Zaharia, Apache Spark 창안자이자 Databricks 최고 기술 책임자

cisco

Cisco는 데이터 레이크에 대한 빅 데이터 배포 업무와 관련해 끊임없이 워크로드 가속화 방안을 모색하는 수천 명의 고객을 보유하고 있습니다. Apache Spark 3.0은 기본적으로 NVIDIA GPU에 액세스할 수 있는 최신 기능을 제공함으로써 AI/ML, ETL 및 기타 워크로드를 가속화하는 차세대 데이터 레이크를 정의합니다. Cisco는 NVIDIA와의 긴밀한 협력을 통해 이 차세대 데이터 레이크 혁신을 고객에게 제공합니다.

- Siva Sivakumar, Cisco데이터센터 솔루션 부문 선임 이사

Adobe

NVIDIA는 CPU에서 Spark를 실행하는 것에 비해 NVIDIA 가속 Spark 3.0을 실행함으로써 엄청나게 더 빨라진 성능을 경험하고 있습니다. 이러한 획기적인 GPU 성능 혜택으로 당사의 전체 Adobe Experience Cloud 앱 제품군에서 AI 기반 기능에 대한 완전히 새로운 가능성이 열리고 있습니다.

- William Yan, Adobe머신 러닝 부문 선임 이사

databricks

NVIDIA와의 지속적인 협력으로 Databricks와 Apache Spark 3.0에 대한 RAPIDS 최적화 관련 성능이 향상되어 Adobe 등의 공동 고객이 이점을 누리고 있습니다. 이러한 기여 덕분에 데이터 파이프라인, 모델 트레이닝 및 채점이 더욱 빨라지게 되어 데이터 엔지니어와 데이터 사이언티스트 커뮤니티에서 더 많은 돌파구와 인사이트를 바로 얻을 수 있습니다.

- Matei Zaharia, Apache Spark 창안자이자 Databricks 최고 기술 책임자

cisco

Cisco는 데이터 레이크에 대한 빅 데이터 배포 업무와 관련해 끊임없이 워크로드 가속화 방안을 모색하는 수천 명의 고객을 보유하고 있습니다. Apache Spark 3.0은 기본적으로 NVIDIA GPU에 액세스할 수 있는 최신 기능을 제공함으로써 AI/ML, ETL 및 기타 워크로드를 가속화하는 차세대 데이터 레이크를 정의합니다. Cisco는 NVIDIA와의 긴밀한 협력을 통해 이 차세대 데이터 레이크 혁신을 고객에게 제공합니다.

- Siva Sivakumar, Cisco데이터센터 솔루션 부문 선임 이사

Adobe

NVIDIA는 CPU에서 Spark를 실행하는 것에 비해 NVIDIA 가속 Spark 3.0을 실행함으로써 엄청나게 더 빨라진 성능을 경험하고 있습니다. 이러한 획기적인 GPU 성능 혜택으로 당사의 전체 Adobe Experience Cloud 앱 제품군에서 AI 기반 기능에 대한 완전히 새로운 가능성이 열리고 있습니다.

- William Yan, Adobe머신 러닝 부문 선임 이사

databricks

NVIDIA와의 지속적인 협력으로 Databricks와 Apache Spark 3.0에 대한 RAPIDS 최적화 관련 성능이 향상되어 Adobe 등의 공동 고객이 이점을 누리고 있습니다. 이러한 기여 덕분에 데이터 파이프라인, 모델 트레이닝 및 채점이 더욱 빨라지게 되어 데이터 엔지니어와 데이터 사이언티스트 커뮤니티에서 더 많은 돌파구와 인사이트를 바로 얻을 수 있습니다.

- Matei Zaharia, Apache Spark 창안자이자 Databricks 최고 기술 책임자

cisco

Cisco는 데이터 레이크에 대한 빅 데이터 배포 업무와 관련해 끊임없이 워크로드 가속화 방안을 모색하는 수천 명의 고객을 보유하고 있습니다. Apache Spark 3.0은 기본적으로 NVIDIA GPU에 액세스할 수 있는 최신 기능을 제공함으로써 AI/ML, ETL 및 기타 워크로드를 가속화하는 차세대 데이터 레이크를 정의합니다. Cisco는 NVIDIA와의 긴밀한 협력을 통해 이 차세대 데이터 레이크 혁신을 고객에게 제공합니다.

- Siva Sivakumar, Cisco데이터센터 솔루션 부문 선임 이사

무료 백서 다운로드

AI 성능으로 빅 데이터의 가치를 최대한 활용하고 싶으십니까? 새로운 백서인, “Apache Spark 3.x 가속화 – NVIDIA GPU를 활용하여 차세대 분석 및 AI 강화"를 다운로드해 Apache Spark의 다음 혁신에 관해 자세히 알아보십시오.