E-BOOK

Apache Spark 3 가속화

NVIDIA GPU를 활용한 차세대 AI와 분석

GPU-accelerated libraries, DataFrame and APIs:

  • Layered on top of NVIDIA CUDA, RAPIDS is a suite of open-source software libraries and APIs that provide GPU parallelism and high-bandwidth memory speed through DataFrame and graph operations, achieving speedup factors of 50x or more on typical end-to-end data science workflows. For Spark 3.0, new RAPIDS APIs are used by Spark SQL and DataFrames for GPU accelerated memory efficient columnar data processing and query plans.
  • With Spark 3.0 the Catalyst query optimizer has been modified to identify operators within a query plan that can be accelerated with the RAPIDS API, and to schedule those operators on GPUs within the Spark cluster, when executing the query plan.
  • A new Spark shuffle implementation, built upon GPU accelerated communication libraries including Remote direct memory access (RDMA), dramatically reduces the data transfer among Spark processes. RDMA allows GPUs to communicate directly with each other, across nodes, at up to 100Gb/s, operating as if on one massive server.


GPU-aware Scheduling in Spark

  • Spark 3.0 adds integration with the cluster managers (YARN, Kubernetes, and Standalone) to request GPUs, and plugin points to allow it to be extended to run operations on the GPU. This makes GPUs easier to request and use for Spark application developers, allows for closer integration with deep learning and AI frameworks such as Horovod and TensorFlow on Spark, and allows for better utilization of GPUs.

 

Apache Spark는 시스템 클러스터 전반에서의 대규모 병렬 데이터 처리를 위한 강력한 실행 엔진으로, 빠른 애플리케이션 개발과 높은 성능을 지원합니다. Spark 3 을 이용하면 주요 성능 개선 사항 덕분에 GPU의 방대한 병렬 아키텍처를 사용해 Spark 데이터 처리 속도를 높일 수 있습니다.

이 전자책에서 Spark 3의 혁신 기술을 통해 GPU의 대규모 병렬 아키텍처를 사용하여 스파크 데이터 처리를 가속화하는 방법을 알아보세요

아래 양식을 작성하고 e북을 다운로드하고 다음 사항에 대해 알아보세요.:

  • Hadoop에서 GPU 및 NVIDIA RAPIDS™ 라이브러리에 이르는 데이터 처리의 진화
  • Spark, 무엇인지, 무엇을 하는지, 왜 중요한지
  • Spark 내 GPU 가속화
  • DataFrames과 Spark SQL
  • 랜덤 포리스트 분류기를 사용한 Spark 회귀 분석 예제
  • XGBoost로 GPU 가속화된 엔드 투 엔드 머신러닝 워크플로우의 예시
spark-e-book-thumb-2

다운로드 받기

NVIDIA 뉴스레터에 구독하고 최신 엔터프라이즈 뉴스와 적용 사례, 그리고 다양한 교육 세미나 참여 등에 대한 안내를 이메일로 받아보겠습니다. 언제든지 구독을 취소할 수 있습니다.