SPARK APACHE ACELERADO POR GPU

Para Datos de Análisis, Machine Learning e Pipelines de Deep Learning

Acelere la GPU sus canales de ciencia de datos Apache Spark 3.0, sin cambios de código, y acelere el procesamiento de datos y la capacitación de modelos mientras reduce sustancialmente los costos de infraestructura.

 

¿Por qué Apache Spark 3.0?

Beneficios Clave de Spark en GPU NVIDIA

Tiempo de Ejecución más Rápido

Tiempo de Ejecución más Rápido

Los científicos e ingenieros de datos pueden acelerar las cargas de trabajo de Apache Spark ETL en las GPU NVIDIA para agilizar las consultas y reducir el tiempo total, de principio a fin, para workflows largos. Esto los libera para enfocarse en un trabajo más crítico.

Analíticamente la IA

Analíticamente la IA

La capacitación de un modelo generalmente requiere una serie de pasos que requieren mucho tiempo, incluida la limpieza y la normalización. Con Spark en GPU, los usuarios pueden llegar a resultados más rápido con una tubería acelerada de GPU de extremo a extremo para aplicaciones de ML y Deep Leaning (DL).

Costos de Infraestructura Reducidos

Costos de Infraestructura Reducidos

Se puede hacer más trabajo en una GPU que en una CPU, con paralelismo inherente. Como resultado, las GPU Spark en NVIDIA requieren menos hardware total para completar un trabajo, ahorrando costos de capital de las organizaciones en las instalaciones o mediante costos operativos en el cloud.

Innovaciones Spark 3.0

Dada la naturaleza del trabajo paralelo de muchas tareas de procesamiento de datos, es natural que la arquitectura de una GPU se use para consultas de procesamiento de datos de Spark. Esto sería similar a cómo una GPU acelera los workflows de deep learning en IA. La aceleración de la GPU es transparente para el desarrollador y no requiere cambios de código para lograr estos beneficios. Estos son los tres avances que han contribuido a lograr una aceleración de GPU transparente en Spark 3.0.

Nuevas bibliotecas aceleradas por GPU en CUDA-X AI

NVIDIA CUDA® es una arquitectura de computación paralela revolucionaria que admite operaciones de computación aceleradas en la arquitectura de GPU NVIDIA. RAPIDS, incubado en NVIDIA, es un conjunto de bibliotecas de código abierto superpuestas con CUDA que permiten la aceleración de GPU de las canalizaciones de ciencia de datos.

NVIDIA creó un acelerador RAPIDS para Spark 3.0 que intercepta y acelera las canalizaciones ETL mejorando significativamente el rendimiento de las operaciones Spark SQL y DataFrame.

Modificaciones a Componentes Spark

NVIDIA ha modificado el optimizador de consultas Catalyst en Spark 3.0 para identificar operadores dentro de un plan de consultas, que puede acelerarse a través de RAPIDS. 

Cuando Spark ejecuta el plan de consulta, esos operadores pueden programarse para ejecutarse en GPU dentro del clúster Spark.

Programación Compatible con GPU en Spark

NVIDIA optimizó el programador de trabajos dentro de Spark 3.0 para permitir el lanzamiento de aplicaciones Spark en recursos específicos de GPU. Spark 3.0 reconoce las GPU como un recurso de primera clase junto con la CPU y la memoria del sistema. 

Esto permite que Spark 3.0 coloque cargas de trabajo aceleradas por GPU directamente en los servidores que contienen los recursos de GPU necesarios, ya que son necesarios para completar un trabajo.

ANÁLISIS ACELERADO Y AI EN SPARK

Spark 3.0 marca un hito clave para el análisis y la inteligencia artificial, ya que las operaciones ETL ahora se aceleran mientras que las aplicaciones ML y DL aprovechan la misma infraestructura de GPU. La pila completa para esta tubería acelerada de ciencia de datos se muestra a continuación:

Accelerated Analytics and AI on Spark

COMENZAR CON SPARK ACELERADO POR GPU

Si está interesado en el acceso anticipado al Acelerador de RAPIDS para la versión preliminar de Apache Spark 3.0, visite nuestra documentación de instalación aquí o comuníquese con el equipo de Spark en NVIDIA.

IRS

La integración de Cloudera y NVIDIA nos permitirá utilizar conocimientos basados en datos para impulsar casos de uso de misión crítica. Actualmente estamos implementando esta integración y ya estamos viendo mejoras de velocidad 10 veces mayores a la mitad del costo de nuestros flujos de trabajo de ingeniería de datos y ciencia de datos.

– Joe Ansaldi, IRS/División de Análisis y Estadísticas Aplicadas a la Investigación (RAAS)/Jefe de la Rama Técnica

Adobe

Estamos viendo un rendimiento significativamente más rápido con Spark 3.0 acelerado por NVIDIA en comparación con la ejecución de Spark en CPU. Con estas ganancias de rendimiento de GPU que cambian el juego, se abren posibilidades completamente nuevas para mejorar las funciones impulsadas por la inteligencia artificial en nuestro conjunto completo de aplicaciones Adobe Experience Cloud.

- William Yan, Diretor Sénior de Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a una canalización de datos más rápida, capacitación y calificación de modelos, que se traducen directamente en más avances e ideas para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, creador original de Apache Spark y Tecnólogo Jefe de Databricks

IRS

La integración de Cloudera y NVIDIA nos permitirá utilizar conocimientos basados en datos para impulsar casos de uso de misión crítica. Actualmente estamos implementando esta integración y ya estamos viendo mejoras de velocidad 10 veces mayores a la mitad del costo de nuestros flujos de trabajo de ingeniería de datos y ciencia de datos.

- Joe Ansaldi, IRS/División de Análisis y Estadísticas Aplicadas a la Investigación (RAAS)/Jefe de la Rama Técnica

Adobe

Estamos viendo un rendimiento significativamente más rápido con Spark 3.0 acelerado por NVIDIA en comparación con la ejecución de Spark en CPU. Con estas ganancias de rendimiento de GPU que cambian el juego, se abren posibilidades completamente nuevas para mejorar las funciones impulsadas por la inteligencia artificial en nuestro conjunto completo de aplicaciones Adobe Experience Cloud.

- William Yan, Diretor Sénior de Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a una canalización de datos más rápida, capacitación y calificación de modelos, que se traducen directamente en más avances e ideas para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, creador original de Apache Spark y Tecnólogo Jefe de Databricks

IRS

La integración de Cloudera y NVIDIA nos permitirá utilizar conocimientos basados en datos para impulsar casos de uso de misión crítica. Actualmente estamos implementando esta integración y ya estamos viendo mejoras de velocidad 10 veces mayores a la mitad del costo de nuestros flujos de trabajo de ingeniería de datos y ciencia de datos.

- Joe Ansaldi, IRS/División de Análisis y Estadísticas Aplicadas a la Investigación (RAAS)/Jefe de la Rama Técnica

Adobe

Estamos viendo un rendimiento significativamente más rápido con Spark 3.0 acelerado por NVIDIA en comparación con la ejecución de Spark en CPU. Con estas ganancias de rendimiento de GPU que cambian el juego, se abren posibilidades completamente nuevas para mejorar las funciones impulsadas por la inteligencia artificial en nuestro conjunto completo de aplicaciones Adobe Experience Cloud.

- William Yan, Diretor Sénior de Machine Learning, Adobe

databricks

Nuestro trabajo continuo con NVIDIA mejora el rendimiento con optimizaciones RAPIDS para Apache Spark 3.0 y Databricks para beneficiar a nuestros clientes conjuntos como Adobe. Estas contribuciones conducen a una canalización de datos más rápida, capacitación y calificación de modelos, que se traducen directamente en más avances e ideas para nuestra comunidad de ingenieros de datos y científicos de datos.

- Matei Zaharia, creador original de Apache Spark y Tecnólogo Jefe de Databricks

Descargue Nuestro eBook Gratuito!

¿Estás buscando desbloquear el valor de Big Data con el poder de la IA? Descargue nuestro nuevo eBook, "Comenzando con la aceleración de la ciencia de datos en Apache Spark 3.0" para obtener más información sobre la próxima evolución en Apache Spark.