SPARK ETL ACELERADO POR GPU

Para Análises & Pipelines de Dados de ML 

Acelere com GPU seus pipelines de ciência de dados do Apache Spark 3.0, sem alterações de código, e acelere o processamento de dados e o treinamento de modelos, reduzindo substancialmente os custos de infraestrutura.

Por que o Apache Spark 3.0?

Principais Vantagens do Spark nas GPUs NVIDIA

Tempo de Execução Mais Rápido

Tempo de Execução Mais Rápido

Os cientistas de dados e engenheiros podem acelerar os workflows do Apache Spark ETL nas GPUs NVIDIA para agilizar as consultas e reduzir o tempo total, de ponta a ponta, para longos workflows. Isso os libera para se concentrar em trabalhos mais críticos.

Da Análise à AI

Da Análise à AI

O treinamento de um modelo geralmente requer uma série de etapas demoradas, incluindo limpeza e normalização. Com o Spark nas GPUs, os usuários podem obter resultados mais rapidamente com um pipeline acelerado por GPU de ponta a ponta para aplicativos de ML e Deep Learning (DL).

Custos de Infraestrutura Reduzidos

Custos de Infraestrutura Reduzidos

Mais trabalho pode ser realizado em uma GPU do que em uma CPU, com paralelismo inerente. Como resultado, o Spark nas GPUs NVIDIA exige menos hardware para concluir um trabalho, economizando custos de investimento das empresas em servidores locais ou via custos operacionais no cloud.

INOVAÇÕES DO SPARK 3.0

Dada a natureza de trabalho em paralelo de muitas tarefas de processamento de dados, é natural que a arquitetura de uma GPU seja aproveitada para consultas de processamento de dados Spark. Isso seria semelhante ao modo como uma GPU acelera os workflows de deep learning em AI. A aceleração da GPU é transparente para o desenvolvedor e não requer alterações de código para obter estes benefícios. Aqui estão os três avanços que contribuíram para a obtenção da aceleração transparente da GPU no Spark 3.0.

Novas Bibliotecas Aceleradas por GPU no CUDA-X AI

O NVIDIA® CUDA® é uma arquitetura revolucionária de processamento em paralelo que suporta operações computacionais aceleradas, como a multiplicação de matrizes na arquitetura da GPU NVIDIA. O RAPIDS da NVIDIA é um conjunto de bibliotecas de código-fonte em camadas sobre o CUDA que permitem a execução de pipelines de análise e ciência de dados de ponta a ponta, inteiramente na GPU.

Para o Spark 3.0, a NVIDIA aprimorou o RAPIDS com APIs usadas pelos planos de consulta do Spark. O RAPIDS agora inclui conexões Java para essas APIs, para que possam ser acionados diretamente do Spark.

Modificações nos Componentes Spark

A NVIDIA modificou o otimizador de consulta Catalyst no Spark 3.0 para identificar operações dentro de uma busca, que pode ser acelerada via RAPIDS. Quando o Spark executa a busca, estas operações podem ser agendadas para execução em GPUs no cluster Spark.

A NVIDIA também criou uma implementação do shuffle Spark que otimiza a transferência de dados entre os processos do Spark. Essa implementação aleatória é construída sobre bibliotecas de processamento acelerado por GPU, incluindo UCX, RDMA e NCCL.

Agendamento com GPU no Spark

A NVIDIA otimizou o agendador de tarefas no Spark 3.0 para permitir o lançamento de aplicativos Spark em recursos específicos da GPU. O Spark 3.0 reconhece as GPUs como um recurso de primeira classe, juntamente com a CPU e a memória do sistema. Isso permite que o Spark 3.0 coloque cargas de trabalho aceleradas por GPU diretamente em servidores que contêm os recursos GPU requisitados, conforme são necessários para concluir um trabalho.

ANALÍTICA ACELERADA E AI NO SPARK

O Spark 3.0 marca um marco importante para análises e IA pois as operações ETL agora são aceleradas, enquanto as aplicações em ML e DL aproveitam a mesma infraestrutura de GPU. O pacote completo deste pipeline acelerado de ciência de dados é mostrada abaixo:

Accelerated Analytics and AI on Spark

Introdução ao ETL Spark Acelerado por GPU

Se você estiver interessado no acesso antecipado ao RAPIDS Accelerator para a versão prévia do Apache Spark 3.0, entre em contato com a equipe do Spark na NVIDIA. 

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3.0 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

cisco

A Cisco tem milhares de clientes com implantações de big data para seu data lake, que buscam constantemente acelerar suas cargas de trabalho. O Apache Spark 3.0 traz novos recursos para acessar as GPUs NVIDIA de forma nativa, definindo a próxima geração de data lake, acelerando AI/ML, ETL e outras cargas de trabalho. A Cisco está trabalhando em estreita colaboração com a NVIDIA para trazer esta próxima fase de inovação do data lake para nossos clientes.

- Siva Sivakumar, Diretor Sênior de Soluções de Data Center, Cisco

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3.0 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

cisco

A Cisco tem milhares de clientes com implantações de big data para seu data lake, que buscam constantemente acelerar suas cargas de trabalho. O Apache Spark 3.0 traz novos recursos para acessar as GPUs NVIDIA de forma nativa, definindo a próxima geração de data lake, acelerando AI/ML, ETL e outras cargas de trabalho. A Cisco está trabalhando em estreita colaboração com a NVIDIA para trazer esta próxima fase de inovação do data lake para nossos clientes.

- Siva Sivakumar, Diretor Sênior de Soluções de Data Center, Cisco

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3.0 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

cisco

A Cisco tem milhares de clientes com implantações de big data para seu data lake, que buscam constantemente acelerar suas cargas de trabalho. O Apache Spark 3.0 traz novos recursos para acessar as GPUs NVIDIA de forma nativa, definindo a próxima geração de data lake, acelerando AI/ML, ETL e outras cargas de trabalho. A Cisco está trabalhando em estreita colaboração com a NVIDIA para trazer esta próxima fase de inovação do data lake para nossos clientes.

- Siva Sivakumar, Diretor Sênior de Soluções de Data Center, Cisco

Faça Download Gratuitamente de Nosso eBook!

Você deseja aumentar o valor do big data com o poder da AI? Faça o download do nosso novo eBook, “Introdução à Aceleração da Ciência de Dados no Apache Spark 3.0" para saber mais sobre a próxima evolução no Apache Spark.