Apache Spark acelerado por GPU

Para procesos de análisis de datos, aprendizaje automático y deep learning

Acelera mediante GPU tus procesos de ciencia de datos de Apache Spark 3.0 (sin cambios en el código) y agiliza el procesamiento de datos y el entrenamiento de modelos, a la vez que reduces sustancialmente los costes de infraestructura.

¿Por qué Apache Spark?

Principales ventajas de Spark en GPU de NVIDIA

Tiempo de ejecución más rápido

Tiempo de ejecución más rápido

Acelera el rendimiento de las tareas de preparación de datos para pasar rápidamente a la siguiente fase del proceso. Esto permite que se entrenen los modelos de forma más rápida, al tiempo que se libera a los ingenieros y científicos de datos para centrar la atención en las actividades más críticas.

Optimizar los análisis para IA

Optimizar los análisis para IA

Spark 3.0 orchestrates end-to-end pipelines—from data ingest, to model training, to visualization.The same GPU-accelerated infrastructure can be used for both Spark and ML/DL (deep learning) frameworks, eliminating the need for separate clusters and giving the entire pipeline access to GPU acceleration.

Costes de infraestructura reducidos

Costes de infraestructura reducidos

Do more with less: Spark on NVIDIA® GPUs completes jobs faster with less hardware when compared to CPUs, saving organizations time as well as on-premises capital costs or operational costs in the cloud.

Innovaciones de Spark 3.0

Given the “embarrassingly parallel” nature of many data processing tasks, it’s only natural that the architecture of a GPU should be leveraged for Spark data processing queries, similar to how a GPU accelerates DL workloads in AI. GPU acceleration is transparent to the developer and requires no code changes in order to obtain these benefits. Three key advancements in Spark 3.0 have contributed to delivering transparent GPU acceleration:

Nuevo Acelerador RAPIDS para Spark 3.0

NVIDIA CUDA® is a revolutionary parallel computing architecture that supports accelerating computational operations on the NVIDIA GPU architecture. RAPIDS, incubated at NVIDIA, is a suite of open-source libraries layered on top of CUDA that enables GPU-acceleration of data science pipelines.

NVIDIA has created a RAPIDS Accelerator for Spark 3.0 that intercepts and accelerates ETL pipelines by dramatically improving the performance of Spark SQL and DataFrame operations.

Modificaciones de los componentes de Spark

Spark 3.0 provides columnar processing support in the Catalyst query optimizer which is what the RAPIDS Accelerator plugs into to accelerate SQL and DataFrame operators. When the query plan is executed, those operators can then be run on GPUs within the Spark cluster.

NVIDIA has also created a new Spark shuffle implementation that optimizes the data transfer between Spark processes. This shuffle implementation is built upon GPU-accelerated communication libraries, including UCX, RDMA, and NCCL.

Programación compatible con GPU en Spark

Spark 3.0 recognizes GPUs as a first-class resource along with CPU and system memory. This allows Spark 3.0 to place GPU-accelerated workloads directly onto servers containing the necessary GPU resources as they are needed to accelerate and complete a job.

NVIDIA engineers have contributed to this major Spark enhancement, enabling the launch of Spark applications on GPU resources in Spark standalone, YARN, and Kubernetes clusters.

Análisis e IA acelerados en Spark

Spark 3.0 marca un hito clave para el análisis y la IA, ya que las operaciones de ETL ahora se aceleran mientras que las aplicaciones de ML y DL aprovechan la misma infraestructura de GPU. A continuación se muestra la pila completa de este proceso de ciencia de datos acelerado:

Análisis e IA acelerados en Spark

Comenzar a usar Spark acelerado por GPU

Si te interesa acceso anticipado al Acelerador RAPIDS para la versión preliminar de Apache Spark 3.0, ponte en contacto con el equipo de Spark en NVIDIA. 

Adobe

Estamos viendo un rendimiento enormemente más rápido con Spark 3.0 acelerado por Nvidia si lo comparamos con la ejecución de Spark en las CPU. Con estas mejoras de rendimiento de GPU revolucionarias, se abren posibilidades completamente nuevas para integrar funciones basadas en IA en nuestras herramientas de marketing y análisis integradas de Adobe Experience Cloud líderes del sector.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con las optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a canalizaciones de datos más rápidas, formación de modelos y puntuación, que se traducen directamente en más avances e información para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco tiene miles de clientes con implementaciones de big data para su lago de datos que buscan constantemente acelerar sus cargas de trabajo. Apache Spark 3.0 ofrece capacidades más recientes para acceder a las GPU NVIDIA de forma nativa, definiendo así la próxima generación de lagos de datos acelerando IA/ML, ETL y otras cargas de trabajo. Cisco está trabajando estrechamente con NVIDIA para llevar esta siguiente fase de innovación del lago de datos a nuestros clientes.

- Siva Sivakumar, directora senior de soluciones de centros de datos, Cisco

Adobe

Estamos viendo un rendimiento enormemente más rápido con Spark 3.0 acelerado por Nvidia si lo comparamos con la ejecución de Spark en las CPU. Con estas mejoras de rendimiento de GPU revolucionarias, se abren posibilidades completamente nuevas para integrar funciones basadas en IA en nuestras herramientas de marketing y análisis integradas de Adobe Experience Cloud líderes del sector.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con las optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a canalizaciones de datos más rápidas, formación de modelos y puntuación, que se traducen directamente en más avances e información para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco tiene miles de clientes con implementaciones de big data para su lago de datos que buscan constantemente acelerar sus cargas de trabajo. Apache Spark 3.0 ofrece capacidades más recientes para acceder a las GPU NVIDIA de forma nativa, definiendo así la próxima generación de lagos de datos acelerando IA/ML, ETL y otras cargas de trabajo. Cisco está trabajando estrechamente con NVIDIA para llevar esta siguiente fase de innovación del lago de datos a nuestros clientes.

- Siva Sivakumar, directora senior de soluciones de centros de datos, Cisco

Adobe

Estamos viendo un rendimiento enormemente más rápido con Spark 3.0 acelerado por Nvidia si lo comparamos con la ejecución de Spark en las CPU. Con estas mejoras de rendimiento de GPU revolucionarias, se abren posibilidades completamente nuevas para integrar funciones basadas en IA en nuestras herramientas de marketing y análisis integradas de Adobe Experience Cloud líderes del sector.

- William Yan, Senior Director of Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con las optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a canalizaciones de datos más rápidas, formación de modelos y puntuación, que se traducen directamente en más avances e información para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, original creator of Apache Spark and Chief Technologist at Databricks

cisco

Cisco tiene miles de clientes con implementaciones de big data para su lago de datos que buscan constantemente acelerar sus cargas de trabajo. Apache Spark 3.0 ofrece capacidades más recientes para acceder a las GPU NVIDIA de forma nativa, definiendo así la próxima generación de lagos de datos acelerando IA/ML, ETL y otras cargas de trabajo. Cisco está trabajando estrechamente con NVIDIA para llevar esta siguiente fase de innovación del lago de datos a nuestros clientes.

- Siva Sivakumar, directora senior de soluciones de centros de datos, Cisco

Descargar nuestro libro electrónico

¿Quieres obtener todo el valor de Big Data con el poder de la IA? Descarga nuestro nuevo libro electrónico, "Accelerating Apache Spark 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI" (Aceleración de Apache Spark 3.x: aprovechamiento de las GPU de Nvidia para impulsar la nueva era de análisis e IA), para obtener más información sobre la próxima evolución en Apache Spark.