Ciencia de datos
de alto rendimiento

Aprovecha la potencia de las GPU para acelerar fácilmente la ciencia de datos, el aprendizaje automático y los flujos de trabajo de inteligencia artificial.

Ejecuta flujos de trabajo de ciencia de datos completos con computación de GPU de alta velocidad y paralelización de carga de datos, manipulación de datos y aprendizaje automático mediante canalizaciones de ciencia de datos integrales 50 veces más rápidas.

¿Por qué RAPIDS?

nvidia-data-science-process-1cn-d

Creación de un ecosistema de alto rendimiento

RAPIDS es un paquete de bibliotecas de software de código abierto e interfaces API para ejecutar canalizaciones de ciencia de datos por completo en las GPU, que puede reducir los tiempos de entrenamiento de días a minutos. Basado en NVIDIA® CUDA-X AI, RAPIDS conjuga años de desarrollo en gráficos, aprendizaje automático, deep learning, computación de alto rendimiento (HPC) y mucho más.

Tiempo de ejecución más rápido

Tiempo de ejecución más rápido

La ciencia de los datos se basa en la velocidad. RAPIDS aprovecha la tecnología NVIDIA CUDA® subyacente, para acelerar los flujos de trabajo ejecutando toda la canalización de entrenamiento de ciencia de datos en GPU. Con esto se reduce el tiempo de entrenamiento y la frecuencia de implementación de modelos de días a minutos.

Uso de las mismas herramientas

Uso de las mismas herramientas

Al ocultar las complejidades del trabajo con la GPU e incluso los protocolos de comunicación en segundo plano dentro de la arquitectura del centro de datos, RAPIDS crea una forma sencilla de conseguir ciencia de datos. A medida que más científicos de datos utilicen Python y otros lenguajes de alto nivel, resulta esencial ofrecer aceleración sin cambios de código para mejorar rápidamente el tiempo de desarrollo.

Ejecución a escala en cualquier lugar

Ejecución a escala en cualquier lugar

RAPIDS se puede ejecutar en cualquier lugar (en la nube o en el entorno local). Puedes escalar fácilmente desde una estación de trabajo a servidores de varias GPU y clústeres de varios nodos, además de implementarlo en producción con Dask, Spark, MLFlow y Kubernetes.

Rendimiento de alta velocidad en datos masivos

Los resultados muestran que las GPU ofrecen un ahorro espectacular de tiempo y costes relacionados con problemas de análisis de datos masivos a pequeña y gran escala. Con API conocidas como Pandas y Dask, a escala de 10 terabytes, RAPIDS funciona hasta 20 veces más rápido en las GPU que la línea base de CPU superior. Con tan solo sistemas 16 NVIDIA DGX A100 para obtener el rendimiento de 350 servidores basados en CPU, la solución de NVIDIA es siete veces más rentable y ofrece un rendimiento de nivel HPC.

nvidia-16-dgx-a100-2c50-d

Acceso más rápido a los datos, menor cantidad de movimiento de datos

Las tareas de procesamiento de datos comunes incluyen numerosos pasos (canalizaciones de datos), que Hadoop no puede manejar con eficiencia. Apache Spark resolvió este problema manteniendo todos los datos en la memoria del sistema, lo que permitía canalizaciones de datos más flexibles y complejas, pero introdujo nuevos cuellos de botella. Analizar incluso unos pocos cientos de gigabytes (GB) de datos podría llevar horas, si no días, en clústeres de Spark con cientos de nodos de CPU. Para aprovechar el verdadero potencial de la ciencia de datos, las GPU tienen que estar en el centro del diseño del centro de datos, que consta de los siguientes cinco elementos: computación, red, almacenamiento, implementación y software. Por lo general, los flujos de trabajo de ciencia de datos integrales en las GPU son 10 veces más rápidos que con las CPU.

LEER EL BLOG ›

Evolución del procesamiento de datos

Acceso más rápido a los datos, menor cantidad de movimiento de datos

RAPIDS omnipresente

RAPIDS proporciona una base para un nuevo ecosistema de ciencia de datos de alto rendimiento y reduce los obstáculos de entrada de las nuevas bibliotecas a través de la interoperabilidad. La integración con las principales plataformas de ciencia de datos como Apache Spark, cuPY, Dask y Numba, además de numerosas plataformas de deep learning, como PyTorch, TensorFlow y Apache MxNet, ayudan a ampliar la adopción y fomentan la integración con otras.

  • Proyectos destacados
  • Colaboradores
  • Usuarios
  • Código abierto
blazingsql-logo

BlazingSQL es un motor SQL distribuido de alto rendimiento de Python, basado en RAPIDS para conjuntos de datos masivos de ETL en las GPU.

nvtabular-logo

Creada en RAPIDS, NVTabular acelera la ingeniería de funciones y el preprocesamiento de los sistemas de recomendación en las GPU.

custreamz-logo

Basada en Streamz, escrita en Python y creada en RAPIDS, cuStreamz acelera el procesamiento de datos en streaming en las GPU.

plotly-dash-logo

Integrada con RAPIDS, Plotly Dash permite el análisis visual interactivo en tiempo real de conjuntos de datos de varios gigabytes, incluso en una sola GPU.

apache-spark-logo

RAPIDS Accelerator para Apache Spark ofrece un conjunto de plugins para Apache Spark que aprovechan las GPU para acelerar el procesamiento a través del software RAPIDS y UCX.

anaconda-logo
Blazing SQL
capital-one-logo
cupy-logo
chainer-logo
deepwave-digital-logo
gunrock-logo
quansight-logo
walmart-logo
booz-allen-hamilton-logo
capital-one-logo
databricks-logo
graphistry-logo
h2oai-logo
ibm-logo
iguazio-logo
inria-logo
kinetica-logo
mapr-logo
omnisci-logo
preferred-networks-logo
pytorch-logo
uber-logo
ursa-labs-logo
walmart-logo
apache-arrow-logo
Blazing SQL
cupy-logo
dask-logo
gpu-open-analytics-initiative-goai-logo
nuclio-logo
numba-logo
scikit-learn-logo
dmlc-xgboost-logo

Tecnología en el centro

RAPIDS se basa en primitivas de CUDA para la optimización de computación de bajo nivel pero expone el paralelismo de la GPU y el ancho de banda de alta memoria mediante interfaces de Python fáciles de utilizar. RAPIDS admite flujos de trabajo de ciencia de los datos integrales, desde la carga y el preprocesamiento de datos hasta el aprendizaje automático, el análisis de gráficos y la visualización. Se trata de una pila de Python totalmente funcional que se escala hasta casos de uso de datos masivos empresariales.

Carga de datos y preprocesamiento

Carga de datos y preprocesamiento

Las características de carga de datos, preprocesamiento y ETL de RAPIDS se basan en Apache Arrow para cargar, unir, agregar, filtrar y manipular los datos, todo ello en una API similar a Pandas conocida por los científicos de datos. Los usuarios pueden esperar velocidades típicas 10 veces mayores o más.

Aprendizaje automático

Aprendizaje automático

Los algoritmos de aprendizaje automático y las primitivas matemáticas de RAPIDS siguen una API similar a la de Scikit-learn. Se admiten herramientas muy populares, como XGBoost, Random Forest y muchas otras, tanto para implementaciones con una sola GPU como en grandes centros de datos. En el caso de conjuntos de datos grandes, estas implementaciones basadas en GPU pueden completarse entre 10 y 50 veces más rápido que sus equivalentes en CPU.

Análisis de gráficos

Análisis de gráficos

Los algoritmos gráficos de RAPIDS como PageRank y funciones como NetworkX hacen un uso eficiente del paralelismo masivo de las GPU para multiplicar por más de 1000 la aceleración del análisis de gráficos grandes. Explora hasta 200 millones de bordes en una única GPU NVIDIA A100 Tensor Core y se escala hasta miles de millones de bordes en clústeres NVIDIA DGX A100.

Visualización

Visualización

Las características de visualización de RAPIDS admiten el filtrado cruzado acelerado por GPU. Inspirado en la versión de JavaScript del original, permite un filtrado multidimensional interactivo y ultrarrápido de más de 100 millones conjuntos de datos tabulares en filas.

Del aprendizaje automático al deep learning: todo en la GPU

Integración de deep learning

Aunque el deep learning es efectivo en dominios como la visión computarizada, el procesamiento de lenguaje natural y los sistemas de recomendación, hay áreas donde su uso no es estándar. Los problemas de datos tabulares, que consisten en columnas de variables de categoría y continuas, normalmente utilizan técnicas como XGBoost, potenciación del gradiente o modelos lineales. RAPIDS optimiza el preprocesamiento de los datos tabulares en las GPU y proporciona una entrega fluida de datos directamente a cualquier plataforma compatible con DLPack, como PyTorch, TensorFlow y MxNet. Estas integraciones abren nuevas oportunidades para crear flujos de trabajo complejos, incluso aquellos que antes no tenían sentido, como alimentar nuevas características creadas a partir de plataformas de deep learning en algoritmos de aprendizaje automático.

Centros de datos modernos para ciencia de datos

Hay cinco ingredientes clave para crear centros de datos optimizados por IA en la empresa. La clave del diseño es colocar las GPU en el centro.

Computación

Computación

Con su enorme rendimiento computacional, los sistemas con GPU NVIDIA constituyen el elemento fundamental de computación de los centros de datos de IA. Los sistemas NVIDIA DGX ofrecen un rendimiento revolucionario de IA y pueden sustituir, por término medio, a 50 servidores de CPU de doble socket. Se trata del primer paso para ofrecer a los científicos de datos las herramientas más potentes del sector para la exploración de datos.

Software

Software

Al ocultar las complejidades del trabajo con la GPU y los protocolos de comunicación en segundo plano dentro de la arquitectura del centro de datos, RAPIDS crea una forma sencilla de conseguir ciencia de datos. A medida que más científicos de datos utilicen Python y otros lenguajes de alto nivel, resulta esencial ofrecer aceleración sin cambios de código para mejorar rápidamente el tiempo de desarrollo.

Redes

Redes

El acceso directo a memoria remota (RDMA) de los controladores de interfaz de red (NIC) de NVIDIA Mellanox®, NCCL2 (NVIDIA Collective Communication Library) y OpenUCX (una plataforma de comunicación punto a punto de código abierto) han provocado mejoras increíbles en la velocidad de entrenamiento. Gracias a que RDMA permite a las GPU comunicarse directamente entre sí a través de nodos de hasta 100 gigabits por segundo (GB/s), pueden abarcar varios nodos y funcionar como si se encontraran en un solo servidor masivo.

Implementación

Implementación

Las empresas están cambiando a los contenedores de Kubernetes y de Docker para la implementación de canalizaciones a escala. La combinación de aplicaciones en contenedor con Kubernetes permite a las empresas cambiar las prioridades sobre la tarea más importante y aporta resistencia, fiabilidad y escalabilidad a los centros de datos de IA.

Almacenamiento

Almacenamiento

GPUDirect® Storage permite que NVMe y NVMe over Fabric (NVMe-oF) lean y escriban datos directamente en la GPU. Así se omiten la memoria del sistema y de CPU, que se liberan para otras tareas, mientras se permite a cada GPU acceder a órdenes de magnitud de más datos con un 50 % de ancho de banda mayor.

Nuestro compromiso con la ciencia de datos de código abierto

NVIDIA se compromete a simplificar, unificar y acelerar la ciencia de los datos para la comunidad de código abierto. Al optimizar toda la pila, del hardware al software, y eliminar los cuellos de botella de la ciencia de datos iterativa, NVIDIA ayuda a los científicos de datos de todo el mundo a hacer más que nunca con menos. Esto se traduce en más valor para las empresas a partir de sus recursos más valiosos: sus datos y científicos de datos. Como software de código abierto para Apache 2.0, RAPIDS reúne un ecosistema en las GPU.

Sin potencia de computación, los científicos de datos tuvieron que "simplificar" sus algoritmos para que funcionaran lo suficientemente rápido. Ya no. Las GPU nos permiten hacer cosas que antes no podíamos hacer.

- Bill Groves, director de datos de Walmart

Los modelos globales de la NASA producen terabytes de datos. Antes de RAPIDS, pulsaría el botón y tendría que esperar seis o siete horas para obtener los resultados. La aceleración del ciclo de entrenamiento supuso un cambio radical en las reglas de juego del desarrollo de modelos.

- Dr. John Keller, NASA Goddard Space Flight Center

Con una mejora 100 veces mayor en los tiempos de entrenamiento de modelos y un ahorro de costes del 98 %, Capital One ve RAPIDS.ai y Dask como las próximas grandes apuestas en ciencia de datos y aprendizaje automático.

- Mike McCarty, director de ingeniería de software de Capital One Center for Machine Learning

Empieza hoy mismo