SPARK ETL ACELERADO POR GPU

Para Pipelines de Datos de Análisis & Machine Learning

Acelere la GPU sus canales de ciencia de datos Apache Spark 3.0, sin cambios de código, y acelere el procesamiento de datos y la capacitación de modelos mientras reduce sustancialmente los costos de infraestructura.

¿Por qué Apache Spark 3.0?

Beneficios Clave de Spark en GPU NVIDIA

Tiempo de Ejecución más Rápido

Tiempo de Ejecución más Rápido

Los científicos e ingenieros de datos pueden acelerar las cargas de trabajo de Apache Spark ETL en las GPU NVIDIA para agilizar las consultas y reducir el tiempo total, de principio a fin, para workflows largos. Esto los libera para enfocarse en un trabajo más crítico.

Analíticamente la IA

Analíticamente la IA

La capacitación de un modelo generalmente requiere una serie de pasos que requieren mucho tiempo, incluida la limpieza y la normalización. Con Spark en GPU, los usuarios pueden llegar a resultados más rápido con una tubería acelerada de GPU de extremo a extremo para aplicaciones de ML y Deep Leaning (DL).

Costos de Infraestructura Reducidos

Costos de Infraestructura Reducidos

Se puede hacer más trabajo en una GPU que en una CPU, con paralelismo inherente. Como resultado, las GPU Spark en NVIDIA requieren menos hardware total para completar un trabajo, ahorrando costos de capital de las organizaciones en las instalaciones o mediante costos operativos en el cloud.

Innovaciones Spark 3.0

Dada la naturaleza del trabajo paralelo de muchas tareas de procesamiento de datos, es natural que la arquitectura de una GPU se use para consultas de procesamiento de datos de Spark. Esto sería similar a cómo una GPU acelera los workflows de deep learning en IA. La aceleración de la GPU es transparente para el desarrollador y no requiere cambios de código para lograr estos beneficios. Estos son los tres avances que han contribuido a lograr una aceleración de GPU transparente en Spark 3.0.

Nuevas bibliotecas aceleradas por GPU en CUDA-X AI

NVIDIA® CUDA®es una revolucionaria arquitectura de computación paralela que admite la aceleración de operaciones computacionales como la multiplicación de matrices en la arquitectura de GPU NVIDIA. RAPIDS incubado en NVIDIA es un conjunto de bibliotecas de código abierto en capas sobre CUDA que permiten la ejecución de canales de análisis y ciencia de datos de extremo a extremo, completamente en la GPU.

Para Spark 3.0, NVIDIA ha mejorado RAPIDS con API que utilizan los planes de consulta de Spark. RAPIDS ahora incluye enlaces Java para estas API, por lo que se pueden llamar directamente desde Spark.

Modificaciones a Componentes Spark

NVIDIA ha modificado el optimizador de consultas Catalyst en Spark 3.0 para identificar operadores dentro de un plan de consultas, que puede acelerarse a través de RAPIDS. 

Cuando Spark ejecuta el plan de consulta, esos operadores pueden programarse para ejecutarse en GPU dentro del clúster Spark.

Programación Compatible con GPU en Spark

NVIDIA optimizó el programador de trabajos dentro de Spark 3.0 para permitir el lanzamiento de aplicaciones Spark en recursos específicos de GPU. Spark 3.0 reconoce las GPU como un recurso de primera clase junto con la CPU y la memoria del sistema. 

Esto permite que Spark 3.0 coloque cargas de trabajo aceleradas por GPU directamente en los servidores que contienen los recursos de GPU necesarios, ya que son necesarios para completar un trabajo.

ANÁLISIS ACELERADO Y AI EN SPARK

Spark 3.0 marca un hito clave para el análisis y la inteligencia artificial, ya que las operaciones ETL ahora se aceleran mientras que las aplicaciones ML y DL aprovechan la misma infraestructura de GPU. La pila completa para esta tubería acelerada de ciencia de datos se muestra a continuación:

Accelerated Analytics and AI on Spark

Comenzando con GPU Acelerado Spark ETL

Si está interesado en el acceso anticipado al Acelerador RAPIDS para la versión preliminar de Apache Spark 3.0, comuníquese con el equipo de Spark en NVIDIA.

Adobe

Estamos viendo un rendimiento significativamente más rápido con Spark 3.0 acelerado por NVIDIA en comparación con la ejecución de Spark en CPU. Con estas ganancias de rendimiento de GPU que cambian el juego, se abren posibilidades completamente nuevas para mejorar las funciones impulsadas por la inteligencia artificial en nuestro conjunto completo de aplicaciones Adobe Experience Cloud.

- William Yan, Diretor Sénior de Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a una canalización de datos más rápida, capacitación y calificación de modelos, que se traducen directamente en más avances e ideas para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, creador original de Apache Spark y Tecnólogo Jefe de Databricks

cisco

Cisco tiene miles de clientes con implementaciones de big data para su data lake que constantemente buscan acelerar sus cargas de trabajo. Apache Spark 3.0 ofrece capacidades más nuevas para acceder a las GPU NVIDIA de forma nativa, definiendo así la próxima generación de data lakes que aceleran AI/ML, ETL y otras cargas de trabajo. Cisco está trabajando estrechamente con NVIDIA para llevar esta próxima fase de innovación del data lake a nuestros clientes.

- Siva Sivakumar, Director Sénior de Soluciones de Data Center, Cisco

Adobe

Estamos viendo un rendimiento significativamente más rápido con Spark 3.0 acelerado por NVIDIA en comparación con la ejecución de Spark en CPU. Con estas ganancias de rendimiento de GPU que cambian el juego, se abren posibilidades completamente nuevas para mejorar las funciones impulsadas por la inteligencia artificial en nuestro conjunto completo de aplicaciones Adobe Experience Cloud.

- William Yan, Diretor Sénior de Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a una canalización de datos más rápida, capacitación y calificación de modelos, que se traducen directamente en más avances e ideas para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, creador original de Apache Spark y Tecnólogo Jefe de Databricks

cisco

Cisco tiene miles de clientes con implementaciones de big data para su data lake que constantemente buscan acelerar sus cargas de trabajo. Apache Spark 3.0 ofrece capacidades más nuevas para acceder a las GPU NVIDIA de forma nativa, definiendo así la próxima generación de data lakes que aceleran AI/ML, ETL y otras cargas de trabajo. Cisco está trabajando estrechamente con NVIDIA para llevar esta próxima fase de innovación del data lake a nuestros clientes.

- Siva Sivakumar, Director Sénior de Soluciones de Data Center, Cisco

Adobe

Estamos viendo un rendimiento significativamente más rápido con Spark 3.0 acelerado por NVIDIA en comparación con la ejecución de Spark en CPU. Con estas ganancias de rendimiento de GPU que cambian el juego, se abren posibilidades completamente nuevas para mejorar las funciones impulsadas por la inteligencia artificial en nuestro conjunto completo de aplicaciones Adobe Experience Cloud.

- William Yan, Diretor Sénior de Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a una canalización de datos más rápida, capacitación y calificación de modelos, que se traducen directamente en más avances e ideas para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, creador original de Apache Spark y Tecnólogo Jefe de Databricks

cisco

Cisco tiene miles de clientes con implementaciones de big data para su data lake que constantemente buscan acelerar sus cargas de trabajo. Apache Spark 3.0 ofrece capacidades más nuevas para acceder a las GPU NVIDIA de forma nativa, definiendo así la próxima generación de data lakes que aceleran AI/ML, ETL y otras cargas de trabajo. Cisco está trabajando estrechamente con NVIDIA para llevar esta próxima fase de innovación del data lake a nuestros clientes.

- Siva Sivakumar, Director Sénior de Soluciones de Data Center, Cisco

Descargue Nuestro eBook Gratuito!

¿Estás buscando desbloquear el valor de Big Data con el poder de la IA? Descargue nuestro nuevo eBook, "Comenzando con la aceleración de la ciencia de datos en Apache Spark 3.0" para obtener más información sobre la próxima evolución en Apache Spark.