E-book

Aceleración de Apache Spark^™ 3

Aprovechando las GPU NVIDIA para Impulsar la Próxima Era de Análisis e Inteligencia Artificial

GPU-accelerated libraries, DataFrame and APIs:

Layered on top of NVIDIA CUDA, RAPIDS is a suite of open-source software libraries and APIs that provide GPU parallelism and high-bandwidth memory speed through DataFrame and graph operations, achieving speedup factors of 50x or more on typical end-to-end data science workflows. For Spark 3.0, new RAPIDS APIs are used by Spark SQL and DataFrames for GPU accelerated memory efficient columnar data processing and query plans.
With Spark 3.0 the Catalyst query optimizer has been modified to identify operators within a query plan that can be accelerated with the RAPIDS API, and to schedule those operators on GPUs within the Spark cluster, when executing the query plan.
A new Spark shuffle implementation, built upon GPU accelerated communication libraries including Remote direct memory access (RDMA), dramatically reduces the data transfer among Spark processes. RDMA allows GPUs to communicate directly with each other, across nodes, at up to 100Gb/s, operating as if on one massive server.

GPU-aware Scheduling in Spark

Spark 3.0 adds integration with the cluster managers (YARN, Kubernetes, and Standalone) to request GPUs, and plugin points to allow it to be extended to run operations on the GPU. This makes GPUs easier to request and use for Spark application developers, allows for closer integration with deep learning and AI frameworks such as Horovod and TensorFlow on Spark, and allows for better utilization of GPUs.

Apache Spark™ es un potente motor de ejecución para el procesamiento de datos paralelos a gran escala en un grupo de máquinas, lo que permite el desarrollo rápido de aplicaciones y un alto rendimiento. Con Spark 3.0, las grandes mejoras hacen posible utilizar la arquitectura paralela masiva de las GPU para acelerar aún más el procesamiento de datos de Spark.

En este libro electrónico, aprenda cómo las innovaciones de Spark 3 hacen posible el uso de la arquitectura masivamente paralela de las GPU para acelerar aún más el procesamiento de datos de Spark.

Complete el formulario a continuación para descargar el libro electrónico y obtener información sobre lo siguiente:

La evolución del procesamiento de datos, de Hadoop a las GPU y la biblioteca NVIDIA RAPIDS^™
Spark, qué es, qué hace y por qué es importante
Aceleración de GPU en Spark
DataFrames y Spark SQL
Un ejemplo de regresión de Spark con un clasificador de bosque aleatorio
Un ejemplo de un workflows de machine learning de extremo a extremo acelerado por GPU con XGBoost

Descargar Ahora

Section

Section

Nombre

Apellido

Correo Corporativo

Business Phone Number

Organización / Nombre de la Universidad

Industria

Título Profesional

Ubicación

Idioma Preferido

enterpriseOptIns hidden field

developerOptIns hidden field

Sí, quiero recibir las últimas noticias, anuncios y más de NVIDIA sobre las Soluciones Empresariales.

Sí, quiero recibir las últimas noticias, anuncios y más de NVIDIA sobre las Herramientas y Tecnologías para Desarrolladores.

Sí, quiero recibir las últimas noticias, anuncios y más de NVIDIA sobre las Soluciones Empresariales y las Herramientas y Tecnologías para Desarrolladores.

Sí, quiero recibir ofertas, anuncios e información de NVIDIA sobre:

Soluciones Empresariales

Tecnología y Herramientas para Desarrolladores

(Opcional). Puedes cancelar la suscripción en cualquier momento.

Política de Privacidad de NVIDIA

Acepto la recopilación y el procesamiento de la información anterior por parte de NVIDIA <span class="corporation-txt hidden">Corporation </span>para fines de investigación y organización de eventos , y he leído y acepto <a href="https://www.nvidia.com/es-la/about-nvidia/privacy-policy/?deeplink=visiting-our-website" target="_blank">Política de privacidad</a>.

Acepto que la información anterior se transfiere a NVIDIA Corporation en los Estados Unidos y se almacena de manera consistente con <a href="https://www.nvidia.com/es-la/about-nvidia/privacy-policy/?deeplink=visiting-our-website" target="_blank">Política de privacidad</a> debido a necesidades de investigación , organización de eventos y la correspondiente gestión interna de NVIDIA y necesidad de operación del sistema . Puede ponerse en contacto con nosotros enviando un correo electrónico a <a href="mailto:privacy@nvidia.com">privacy@nvidia.com</a> para resolver problemas relacionados.

Aceleración de Apache Spark™ 3

Descargar Ahora

Aceleración de Apache Spark^™ 3