SPARK APACHE ACELERADO POR GPU

Para Análises de Dados, Machine Learning e Pipelines de Deep Learning

Acelere com GPU seus pipelines de ciência de dados do Apache Spark 3.0, sem alterações de código, e acelere o processamento de dados e o treinamento de modelos, reduzindo substancialmente os custos de infraestrutura.

 

Por que o Apache Spark 3.0?

Principais Vantagens do Spark nas GPUs NVIDIA

Tempo de Execução Mais Rápido

Tempo de Execução Mais Rápido

Os cientistas de dados e engenheiros podem acelerar os workflows do Apache Spark ETL nas GPUs NVIDIA para agilizar as consultas e reduzir o tempo total, de ponta a ponta, para longos workflows. Isso os libera para se concentrar em trabalhos mais críticos.

Da Análise à AI

Da Análise à AI

O treinamento de um modelo geralmente requer uma série de etapas demoradas, incluindo limpeza e normalização. Com o Spark nas GPUs, os usuários podem obter resultados mais rapidamente com um pipeline acelerado por GPU de ponta a ponta para aplicativos de ML e Deep Learning (DL).

Custos de Infraestrutura Reduzidos

Custos de Infraestrutura Reduzidos

Mais trabalho pode ser realizado em uma GPU do que em uma CPU, com paralelismo inerente. Como resultado, o Spark nas GPUs NVIDIA exige menos hardware para concluir um trabalho, economizando custos de investimento das empresas em servidores locais ou via custos operacionais no cloud.

INOVAÇÕES DO SPARK 3.0

Dada a natureza de trabalho em paralelo de muitas tarefas de processamento de dados, é natural que a arquitetura de uma GPU seja aproveitada para consultas de processamento de dados Spark. Isso seria semelhante ao modo como uma GPU acelera os workflows de deep learning em AI. A aceleração da GPU é transparente para o desenvolvedor e não requer alterações de código para obter estes benefícios. Aqui estão os três avanços que contribuíram para a obtenção da aceleração transparente da GPU no Spark 3.0.

Novo Acelerador RAPIDS para Spark 3.0

O NVIDIA CUDA® é uma arquitetura de computação paralela revolucionária que suporta operações computacionais aceleradas na arquitetura de GPU NVIDIA. O RAPIDS, incubado na NVIDIA, é um conjunto de bibliotecas de código aberto sobrepostas ao CUDA que permite a aceleração por GPU de pipelines de ciência de dados.

A NVIDIA criou um acelerador RAPIDS para Spark 3.0 que intercepta e acelera os pipelines ETL melhorando significativamente o desempenho das operações Spark SQL e DataFrame.

Modificações nos Componentes Spark

A NVIDIA modificou o otimizador de consulta Catalyst no Spark 3.0 para identificar operações dentro de uma busca, que pode ser acelerada via RAPIDS. Quando o Spark executa a busca, estas operações podem ser agendadas para execução em GPUs no cluster Spark.

A NVIDIA também criou uma implementação do shuffle Spark que otimiza a transferência de dados entre os processos do Spark. Essa implementação aleatória é construída sobre bibliotecas de processamento acelerado por GPU, incluindo UCX, RDMA e NCCL.

Agendamento com GPU no Spark

A NVIDIA otimizou o agendador de tarefas no Spark 3.0 para permitir o lançamento de aplicativos Spark em recursos específicos da GPU. O Spark 3.0 reconhece as GPUs como um recurso de primeira classe, juntamente com a CPU e a memória do sistema. Isso permite que o Spark 3.0 coloque cargas de trabalho aceleradas por GPU diretamente em servidores que contêm os recursos GPU requisitados, conforme são necessários para concluir um trabalho.

ANÁLISE ACELERADA E AI NO SPARK

O Spark 3.0 marca um marco importante para análises e AI pois as operações ETL agora são aceleradas, enquanto as aplicações em ML e DL aproveitam a mesma infraestrutura de GPU. O pacote completo deste pipeline acelerado de ciência de dados é mostrada abaixo:

Accelerated Analytics and AI on Spark

COMEÇANDO COM O SPARK ACELERADO POR GPU

Se você estiver interessado no acesso antecipado ao RAPIDS Accelerator para a versão de pré-lançamento do Apache Spark 3.0, visite nossa documentação de instalação aqui ou entre em contato com a equipe do Spark na NVIDIA.

IRS

A integração do Cloudera e da NVIDIA nos permitirá usar insights baseados em dados para potencializar casos de uso de missão crítica. Estamos implementando essa integração e já observando melhorias na velocidade de mais de 10 vezes pela metade do custo de nossos workflows de engenharia e ciência de dados.

– Joe Ansaldi, IRS / Divisão de Análise Aplicada de Pesquisa e Estatística (RAAS) / Chefe do Departamento Técnico

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3.0 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

IRS

A integração do Cloudera e da NVIDIA nos permitirá usar insights baseados em dados para potencializar casos de uso de missão crítica. Estamos implementando essa integração e já observando melhorias na velocidade de mais de 10 vezes pela metade do custo de nossos workflows de engenharia e ciência de dados.

- Joe Ansaldi, IRS / Divisão de Análise Aplicada de Pesquisa e Estatística (RAAS) / Chefe do Departamento Técnico

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3.0 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

IRS

A integração do Cloudera e da NVIDIA nos permitirá usar insights baseados em dados para potencializar casos de uso de missão crítica. Estamos implementando essa integração e já observando melhorias na velocidade de mais de 10 vezes pela metade do custo de nossos workflows de engenharia e ciência de dados.

- Joe Ansaldi, IRS / Divisão de Análise Aplicada de Pesquisa e Estatística (RAAS) / Chefe do Departamento Técnico

Adobe

Estamos vendo um desempenho significativamente mais rápido com o Spark 3.0 acelerado pela NVIDIA em comparação com a execução do Spark nas CPUs. Com esses ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem para aprimorar os recursos orientados por AI em nosso conjunto completo de aplicaçõeos Adobe Experience Cloud.

- William Yan, Diretor Sênior de Machine Learning, Adobe

databricks

Nosso trabalho contínuo com a NVIDIA aprimora o desempenho com otimizações RAPIDS para Apache Spark 3.0 e Databricks para beneficiar nossos clientes em comum, como a Adobe. Essas contribuições levam a pipelines de dados mais rápidos, treinamento e pontuação de modelos, que se traduzem diretamente em mais descobertas para a nossa comunidade de engenheiros de dados e cientistas de dados.

- Matei Zaharia, criador original do Apache Spark e Chefe Tecnólogo da Databricks

Faça Download Gratuitamente de Nosso eBook

Você deseja aumentar o valor do big data com o poder da AI? Faça o download do nosso novo eBook, “Introdução à Aceleração da Ciência de Dados no Apache Spark 3.0" para saber mais sobre a próxima evolução no Apache Spark.