Apache Spark с ускорением на GPU

Для анализа данных, конвейера машинного и глубокого обучения

Используйте ускорение GPU для конвейера обработки данных в Apache Spark 3.0 без изменений кода, а также ускорьте обработку данных и тренировку моделей, существенно снизив затраты на инфраструктуру.

Почему Apache Spark?

Ключевые преимущества Spark на GPU NVIDIA

Ускорение выполнения операций

Ускорение выполнения операций

Ускорьте подготовку данных, чтобы быстрее перейти к следующему этапу. Это позволит быстрее обучать модели, а специалисты по data science и инженеры смогут сосредоточиться на более сложных задачах.

Ускорение аналитики для ИИ

Ускорение аналитики для ИИ

Spark 3.0 управляет всем конвейером: от ввода данных до обучения моделей и визуализации. Для Spark и фреймворков машинного/глубокого обучения можно использовать одну и ту же инфраструктуру, что устраняет необходимость в разных кластерах и обеспечивает ускорение GPU для всего конвейера.

Снижение затрат на инфраструктуру

Снижение затрат на инфраструктуру

Больше возможностей с меньшими затратами: Spark на GPU NVIDIA® выполняет задачи быстрее, чем на CPU, экономя время и сокращая затраты компании на основные средства или операционные расходы при использовании облачных платформ.

Инновации в Spark 3.0

Given the “embarrassingly parallel” nature of many data processing tasks, it’s only natural that the architecture of a GPU should be leveraged for Spark data processing queries, similar to how a GPU accelerates DL workloads in AI. GPU acceleration is transparent to the developer and requires no code changes in order to obtain these benefits. Three key advancements in Spark 3.0 have contributed to delivering transparent GPU acceleration:

Новый RAPIDS Accelerator для Spark 3.0

NVIDIA® CUDA® — это передовая архитектура параллельных вычислений, которая поддерживает ускорение вычислительных операций на GPU NVIDIA. RAPIDS — это разработанный NVIDIA набор открытых библиотек на основе CUDA, который обеспечивает GPU-ускорение для обработки данных.

Для Spark 3.0 NVIDIA создала RAPIDS Accelerator, который ускоряет конвейеры ETL, значительно повышая скорость выполнения запросов к Spark SQL и DataFrame.

Модификации компонентов Spark

Spark 3.0 поддерживает обработку колоночных данных в оптимизаторе запросов Catalyst, к которому подключается RAPIDS Accelerator для ускорения операторов SQL и DataFrame. Когда план запроса выполнен, эти операторы можно поставить в очередь для запуска на GPU в кластере Spark.

NVIDIA также создала в Spark новую реализацию распределения, которая оптимизирует передачу данных между процессами. Она создана на базе GPU-ускоренных библиотек коммуникации, включая UCX, RDMA и NCCL.

Планирование выполнения задач на GPU в Spark

Spark 3.0 распознает GPU как ресурс первого класса, наряду с CPU и системной памятью. Это позволяет Spark 3.0 размещать GPU-ускоренные нагрузки прямо на серверах с необходимыми ресурсами GPU, которые требуются для ускорения и выполнения задачи.

Инженеры NVIDIA внесли вклад в это улучшение Spark, обеспечив запуск приложений Spark на ресурсах GPU в Spark, кластерах YARN и Kubernetes.

Ускорение аналитики и ИИ в Spark

В Spark 3.0 реализован важный этап для аналитики и ИИ: операции ETL теперь получают ускорение, а GPU-ускоренные приложения глубокого и машинного обучения используют ту же инфраструктуру GPU. Ниже показан полный стек для ускоренного конвейера обработки данных.

Ускорение аналитики и ИИ в Spark

Начало работы с GPU-ускорением в Spark

Чтобы получить ранний доступ к RAPIDS Accelerator для предварительного релиза Apache Spark 3.0, пожалуйста, свяжитесь со экспертами NVIDIA по Spark. 

Adobe

Мы видим, что Spark 3.0 на базе GPU NVIDIA работает значительно быстрее, чем на CPU. Потрясающий прирост скорости c GPU открывает совершенно новые возможности для интеграции функций на основе ИИ во встроенные инструменты для маркетинга и аналитики в Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Наше постоянное сотрудничество с NVIDIA повышает производительность благодаря оптимизациям RAPIDS для Apache Spark 3.0 и Databricks, что приносит пользу нашим общим клиентам, например Adobe. Эта работа позволяет ускорить конвейер обработки данных, обучение и оценку моделей, что приводит к новым достижениям и идеям для сообщества разработчиков и специалистов по data science.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Тысячи клиентов Cisco развертывают большие озера данных и стремятся ускорить нагрузки. Apache Spark 3.0 предоставляет новые возможности для доступа к GPU NVIDIA, что позволяет создать озера данных нового поколения с ускорением ИИ, машинного обучения, конвейера ETL и других нагрузок. Компания Cisco тесно сотрудничает с NVIDIA, чтобы обеспечить эти инновации для своих клиентов.

— Шива Шивакумар (Siva Sivakumar), главный директор по решениям для дата-центров в Cisco

Adobe

Мы видим, что Spark 3.0 на базе GPU NVIDIA работает значительно быстрее, чем на CPU. Потрясающий прирост скорости c GPU открывает совершенно новые возможности для интеграции функций на основе ИИ во встроенные инструменты для маркетинга и аналитики в Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Наше постоянное сотрудничество с NVIDIA повышает производительность благодаря оптимизациям RAPIDS для Apache Spark 3.0 и Databricks, что приносит пользу нашим общим клиентам, например Adobe. Эта работа позволяет ускорить конвейер обработки данных, обучение и оценку моделей, что приводит к новым достижениям и идеям для сообщества разработчиков и специалистов по data science.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Тысячи клиентов Cisco развертывают большие озера данных и стремятся ускорить нагрузки. Apache Spark 3.0 предоставляет новые возможности для доступа к GPU NVIDIA, что позволяет создать озера данных нового поколения с ускорением ИИ, машинного обучения, конвейера ETL и других нагрузок. Компания Cisco тесно сотрудничает с NVIDIA, чтобы обеспечить эти инновации для своих клиентов.

— Шива Шивакумар (Siva Sivakumar), главный директор по решениям для дата-центров в Cisco

Adobe

Мы видим, что Spark 3.0 на базе GPU NVIDIA работает значительно быстрее, чем на CPU. Потрясающий прирост скорости c GPU открывает совершенно новые возможности для интеграции функций на основе ИИ во встроенные инструменты для маркетинга и аналитики в Adobe Experience Cloud.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Наше постоянное сотрудничество с NVIDIA повышает производительность благодаря оптимизациям RAPIDS для Apache Spark 3.0 и Databricks, что приносит пользу нашим общим клиентам, например Adobe. Эта работа позволяет ускорить конвейер обработки данных, обучение и оценку моделей, что приводит к новым достижениям и идеям для сообщества разработчиков и специалистов по data science.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Тысячи клиентов Cisco развертывают большие озера данных и стремятся ускорить нагрузки. Apache Spark 3.0 предоставляет новые возможности для доступа к GPU NVIDIA, что позволяет создать озера данных нового поколения с ускорением ИИ, машинного обучения, конвейера ETL и других нагрузок. Компания Cisco тесно сотрудничает с NVIDIA, чтобы обеспечить эти инновации для своих клиентов.

— Шива Шивакумар (Siva Sivakumar), главный директор по решениям для дата-центров в Cisco

Скачайте брошюру бесплатно

Хотите узнать больше о важности больших данных и возможностях ИИ? Скачайте новую брошюру «Ускорение Apache Spark 3.0. Использование графических процессоров NVIDIA для обеспечения новой эры аналитики и ИИ», чтобы узнать больше о следующих инновациях в Apache Spark.