SPARK APACHE ACELERADO POR GPU

Para Análises de Dados, Machine Learning e Pipelines de Deep Learning

Acelere com GPU seus pipelines de ciência de dados do Apache Spark 3, sem alterações de código, e acelere o processamento de dados e o treinamento de modelos, reduzindo substancialmente os custos de infraestrutura.

 

Por que o Apache Spark 3?

Principais Vantagens do Spark nas GPUs NVIDIA

Tempo de Execução Mais Rápido

Tempo de Execução Mais Rápido

Os cientistas de dados e engenheiros podem acelerar os workflows do Apache Spark ETL nas GPUs NVIDIA para agilizar as consultas e reduzir o tempo total, de ponta a ponta, para longos workflows. Isso os libera para se concentrar em trabalhos mais críticos.

Da Análise à AI

Da Análise à AI

O treinamento de um modelo geralmente requer uma série de etapas demoradas, incluindo limpeza e normalização. Com o Spark nas GPUs, os usuários podem obter resultados mais rapidamente com um pipeline acelerado por GPU de ponta a ponta para aplicativos de ML e Deep Learning (DL).

Custos de Infraestrutura Reduzidos

Custos de Infraestrutura Reduzidos

Mais trabalho pode ser realizado em uma GPU do que em uma CPU, com paralelismo inerente. Como resultado, o Spark nas GPUs NVIDIA exige menos hardware para concluir um trabalho, economizando custos de investimento das empresas em servidores locais ou via custos operacionais no cloud.

INOVAÇÕES DO SPARK 3

Dada a natureza de trabalho em paralelo de muitas tarefas de processamento de dados, é natural que a arquitetura de uma GPU seja aproveitada para consultas de processamento de dados Spark. Isso seria semelhante ao modo como uma GPU acelera os workflows de deep learning em AI. A aceleração da GPU é transparente para o desenvolvedor e não requer alterações de código para obter estes benefícios. Aqui estão os três avanços que contribuíram para a obtenção da aceleração transparente da GPU no Spark 3.

Novo Acelerador RAPIDS para Spark 3

O NVIDIA CUDA® é uma arquitetura de computação paralela revolucionária que suporta operações computacionais aceleradas na arquitetura de GPU NVIDIA. O RAPIDS, incubado na NVIDIA, é um conjunto de bibliotecas de código aberto sobrepostas ao CUDA que permite a aceleração por GPU de pipelines de ciência de dados.

A NVIDIA criou um acelerador RAPIDS para Spark 3 que intercepta e acelera os pipelines ETL melhorando significativamente o desempenho das operações Spark SQL e DataFrame.

Modificações nos Componentes Spark

A NVIDIA modificou o otimizador de consulta Catalyst no Spark 3 para identificar operações dentro de uma busca, que pode ser acelerada via RAPIDS. Quando o Spark executa a busca, estas operações podem ser agendadas para execução em GPUs no cluster Spark.

A NVIDIA também criou uma implementação do shuffle Spark que otimiza a transferência de dados entre os processos do Spark. Essa implementação aleatória é construída sobre bibliotecas de processamento acelerado por GPU, incluindo UCX, RDMA e NCCL.

Agendamento com GPU no Spark

A NVIDIA otimizou o agendador de tarefas no Spark 3 para permitir o lançamento de aplicativos Spark em recursos específicos da GPU. O Spark 3 reconhece as GPUs como um recurso de primeira classe, juntamente com a CPU e a memória do sistema. Isso permite que o Spark 3 coloque cargas de trabalho aceleradas por GPU diretamente em servidores que contêm os recursos GPU requisitados, conforme são necessários para concluir um trabalho.

ANÁLISE ACELERADA E AI NO SPARK

O Spark 3 marca um marco importante para análises e AI pois as operações ETL agora são aceleradas, enquanto as aplicações em ML e DL aproveitam a mesma infraestrutura de GPU. O pacote completo deste pipeline acelerado de ciência de dados é mostrada abaixo:

Accelerated Analytics and AI on Spark

COMECE COM O SPARK ACELERADO POR GPU

Faça download do RAPIDS Accelerator for Spark 3 para acelerar por GPU seus pipelines de ciência de dados do Apache Spark. Os clientes também podem entrar em contato com a equipe NVIDIA Spark no GitHub aqui.

IRS

A integração do Cloudera e da NVIDIA nos permitirá usar insights baseados em dados para potencializar casos de uso de missão crítica. Estamos implementando essa integração e já observando melhorias na velocidade de mais de 10 vezes pela metade do custo de nossos workflows de engenharia e ciência de dados.

– Joe Ansaldi, IRS / Divisão de Análise Aplicada de Pesquisa e Estatística (RAAS) / Chefe do Departamento Técnico

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

IRS

A integração do Cloudera e da NVIDIA nos permitirá usar insights baseados em dados para potencializar casos de uso de missão crítica. Estamos implementando essa integração e já observando melhorias na velocidade de mais de 10 vezes pela metade do custo de nossos workflows de engenharia e ciência de dados.

- Joe Ansaldi, IRS / Divisão de Análise Aplicada de Pesquisa e Estatística (RAAS) / Chefe do Departamento Técnico

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

IRS

A integração do Cloudera e da NVIDIA nos permitirá usar insights baseados em dados para potencializar casos de uso de missão crítica. Estamos implementando essa integração e já observando melhorias na velocidade de mais de 10 vezes pela metade do custo de nossos workflows de engenharia e ciência de dados.

- Joe Ansaldi, IRS / Divisão de Análise Aplicada de Pesquisa e Estatística (RAAS) / Chefe do Departamento Técnico

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

Faça Download Gratuitamente de Nosso eBook

Você deseja aumentar o valor do big data com o poder da AI? Faça o download do nosso novo eBook, “Introdução à Aceleração da Ciência de Dados no Apache Spark 3" para saber mais sobre a próxima evolução no Apache Spark.