Ciencia de datos
de alto rendimiento

Aprovecha la potencia de las GPU para acelerar fácilmente la ciencia de datos, el aprendizaje automático y los flujos de trabajo de inteligencia artificial.

Ejecuta flujos de trabajo de ciencia de datos completos con computación de GPU de alta velocidad y paraleliza la carga de datos, manipulación de datos y aprendizaje automático mediante canalizaciones de ciencia de datos de extremo a extremo 50 veces más rápidas.

¿Por qué RAPIDS?

nvidia-data-science-process-1cn-d

Crear un ecosistema de alto rendimiento

RAPIDS es un conjunto de bibliotecas de software de código abierto y API para ejecutar canalizaciones de ciencia de datos por completo en las GPU, y puede reducir los tiempos de entrenamiento de días a minutos. Basado en NVIDIA® CUDA-X AI, RAPIDS une años de desarrollo en gráficos, aprendizaje automático, deep learning, computación de alto rendimiento (HPC) y mucho más.

Tiempo de ejecución más rápido

Tiempo de ejecución más rápido

Con la ciencia de datos, una mayor capacidad de computación te permite obtener información más rápido. RAPIDS aprovecha NVIDIA CUDA® en el entorno para acelerar los flujos de trabajo ejecutando toda la canalización de entrenamiento de ciencia de datos en las GPU. Esto puede reducir el tiempo de entrenamiento del modelo de días a minutos.

Usar las mismas herramientas

Usar las mismas herramientas

Al ocultar las complejidades del trabajo con la GPU e incluso los protocolos de comunicación en segundo plano dentro de la arquitectura del centro de datos, RAPIDS crea una forma sencilla de conseguir ciencia de datos. A medida que más científicos de datos utilicen Python y otros lenguajes de alto nivel, resulta esencial ofrecer aceleración sin cambios de código para mejorar rápidamente el tiempo de desarrollo.

Ejecutar a escala en cualquier lugar

Ejecutar a escala en cualquier lugar

RAPIDS se puede ejecutar en cualquier lugar (en la nube o en el entorno local). Puedes escalar fácilmente desde una estación de trabajo a servidores de varias GPU y clústeres de varios nodos, además de implementarlo en producción con Dask, Spark, MLFlow y Kubernetes.

Ciencia de datos preparada para la empresa

Ciencia de datos preparada para la empresa

El acceso a un soporte fiable acostumbra a ser vital para las organizaciones que utilizan la ciencia de datos con el fin de obtener información práctica esencial. El soporte global para empresas de NVIDIA está disponible con NVIDIA AI Enterprise, un conjunto de software de IA de extremo a extremo. Además, incluye tiempos de respuesta garantizados, notificaciones de seguridad prioritaria, actualizaciones periódicas y acceso a expertos en IA de NVIDIA.

Rendimiento de alta velocidad en Big Data

Los resultados muestran que las GPU ofrecen un ahorro espectacular de tiempo y costes relacionados con problemas de análisis de Big Data a pequeña y gran escala. Con API conocidas como Pandas y Dask, a escala de 10 terabytes, RAPIDS funciona hasta 20 veces más rápido en las GPU que la línea base de CPU superior. Con tan solo 16 sistemas NVIDIA DGX A100 para obtener el rendimiento de 350 servidores basados en CPU, la solución de NVIDIA es siete veces más rentable y ofrece un rendimiento de nivel HPC.

nvidia-16-dgx-a100-2c50-d

Acceso a datos más rápido, menos movimiento de datos

Las tareas de procesamiento de datos comunes incluyen numerosos pasos (canalizaciones de datos), que Hadoop no puede manejar con eficiencia. Apache Spark resolvió este problema manteniendo todos los datos en la memoria del sistema, lo que permitía canalizaciones de datos más flexibles y complejas, pero introdujo nuevos cuellos de botella. Analizar incluso unos pocos cientos de gigabytes (GB) de datos podría llevar horas, si no días, en clústeres de Spark con cientos de nodos de CPU. Para aprovechar el verdadero potencial de la ciencia de datos, las GPU tienen que estar en el centro del diseño del centro de datos, que consta de los siguientes cinco elementos: computación, red, almacenamiento, implementación y software. Por lo general, los flujos de trabajo de ciencia de datos de extremo a extremo en las GPU son 10 veces más rápidos que con las CPU.

Leer el blog ›

Evolución del procesamiento de datos

Acceso a datos más rápido, menos movimiento de datos

RAPIDS en todas partes

RAPIDS proporciona una base para un nuevo ecosistema de ciencia de datos de alto rendimiento y reduce la barrera de entrada para nuevas bibliotecas a través de la interoperabilidad. La integración con los principales entornos de trabajo de ciencia de datos como Apache Spark, cuPY, Dask y Numba, así como numerosos entornos de trabajo de deep learning como PyTorch, TensorFlow y Apache MxNet, ayudan a ampliar la adopción y fomentan la integración con otros. Encontrarás RAPIDS y los entornos de trabajo de correlación en el catálogo de NGC.

  • Proyectos destacados
  • Colaboradores
  • Usuarios
  • Código abierto
dask-logo

dask-sql es un motor SQL distribuido en Python, que realiza ETL a escala con RAPIDS para la aceleración de GPU.

nvtabular-logo

Creada en RAPIDS, NVTabular acelera la ingeniería de funciones y el preprocesamiento de los sistemas de recomendación en las GPU.

custreamz-logo

Basada en Streamz, escrita en Python y creada en RAPIDS, cuStreamz acelera el procesamiento de datos en streaming en las GPU.

plotly-dash-logo

Integrada con RAPIDS, Plotly Dash permite el análisis visual interactivo en tiempo real de conjuntos de datos de varios gigabytes, incluso en una sola GPU.

apache-spark-logo

RAPIDS Accelerator para Apache Spark ofrece un conjunto de complementos para Apache Spark que aprovechan las GPU para acelerar el procesamiento a través del software RAPIDS y UCX.

anaconda-logo
Blazing SQL
capital-one-logo
cupy-logo
chainer-logo
deepwave-digital-logo
gunrock-logo
quansight-logo
walmart-logo
booz-allen-hamilton-logo
capital-one-logo
cloudera-logo
databricks-logo
graphistry-logo
h2oai-logo
hpe-ezmeral-logo-215x121
ibm-logo
iguazio-logo
inria-logo
kinetica-logo
omnisci-logo
preferred-networks-logo
pytorch-logo
uber-logo
ursa-labs-logo
walmart-logo
apache-arrow-logo
Blazing SQL
cupy-logo
dask-logo
gpu-open-analytics-initiative-goai-logo
nuclio-logo
numba-logo
scikit-learn-logo
dmlc-xgboost-logo

Tecnología en el centro

RAPIDS se basa en primitivas de CUDA para la optimización de computación de bajo nivel pero expone el paralelismo de la GPU y el ancho de banda de alta memoria mediante interfaces de Python fáciles de utilizar. RAPIDS admite flujos de trabajo de ciencia de los datos integrales, desde la carga y el preprocesamiento de datos hasta el aprendizaje automático, el análisis de gráficos y la visualización. Se trata de una pila de Python totalmente funcional que se escala hasta casos de uso de datos masivos empresariales.

Carga de datos y preprocesamiento

Carga de datos y preprocesamiento

Las características de carga de datos, preprocesamiento y ETL de RAPIDS se basan en Apache Arrow para cargar, unir, añadir, filtrar y manipular los datos, todo ello en una API similar a Pandas conocida por los científicos de datos. Los usuarios pueden esperar velocidades típicas 10 veces mayores o más.

Aprendizaje automático

Aprendizaje automático

Los algoritmos de aprendizaje automático y las primitivas matemáticas de RAPIDS siguen una API similar a la de Scikit-learn. Se admiten herramientas muy populares, como XGBoost, Random Forest y muchas otras, tanto para implementaciones con una sola GPU como en grandes centros de datos. En el caso de conjuntos de datos grandes, estas implementaciones basadas en GPU pueden completarse entre 10 y 50 veces más rápido que sus equivalentes en CPU.

Análisis de gráficos

Análisis de gráficos

Los algoritmos gráficos de RAPIDS como PageRank y funciones como NetworkX hacen un uso eficiente del paralelismo masivo de las GPU para multiplicar por más de 1000 la aceleración del análisis de gráficos grandes. Explora hasta 200 millones de perímetros en una sola GPU NVIDIA A100 Tensor Core y escala hasta miles de millones de perímetroa en clústeres NVIDIA DGX A100.

Visualización

Visualización

Las características de visualización de RAPIDS admiten el filtrado cruzado acelerado por GPU. Inspirado en la versión de JavaScript del original, permite un filtrado multidimensional interactivo y ultrarrápido de más de 100 millones conjuntos de datos tabulares en filas.

Del aprendizaje automático al deep learning: todo en la GPU

Integración de deep learning

Aunque el deep learning es efectivo en dominios como la visión computarizada, el procesamiento de lenguaje natural y los sistemas de recomendación, hay áreas donde su uso no es estándar. Los problemas de datos tabulares, que consisten en columnas de variables de categoría y continuas, normalmente utilizan técnicas como XGBoost, potenciación del gradiente o modelos lineales. RAPIDS optimiza el preprocesamiento de los datos tabulares en las GPU y proporciona una entrega fluida de datos directamente a cualquier plataforma compatible con DLPack, como PyTorch, TensorFlow y MxNet. Estas integraciones abren nuevas oportunidades para crear flujos de trabajo complejos, incluso aquellos que antes no tenían sentido, como alimentar nuevas características creadas a partir de plataformas de deep learning en algoritmos de aprendizaje automático.

Centros de datos modernos para ciencia de datos

Hay cinco ingredientes clave para crear centros de datos optimizados por IA en la empresa. La clave del diseño es colocar las GPU en el centro.

Computación

Computación

Con su enorme rendimiento computacional, los sistemas con GPU NVIDIA constituyen el elemento fundamental de computación de los centros de datos de IA. Los sistemas NVIDIA DGX ofrecen un rendimiento revolucionario de IA y pueden sustituir, por término medio, a 50 servidores de CPU de doble socket. Se trata del primer paso para ofrecer a los científicos de datos las herramientas más potentes del sector para la exploración de datos.

Software

Software

Al ocultar las complejidades del trabajo con la GPU y los protocolos de comunicación en segundo plano dentro de la arquitectura del centro de datos, RAPIDS crea una forma sencilla de conseguir ciencia de datos. A medida que más científicos de datos utilicen Python y otros lenguajes de alto nivel, resulta esencial ofrecer aceleración sin cambios de código para mejorar rápidamente el tiempo de desarrollo.

Redes

Redes

El acceso directo a memoria remota (RDMA) de los controladores de interfaz de red (NIC) de NVIDIA Mellanox®, NCCL2 (NVIDIA Collective Communication Library) y OpenUCX (una plataforma de comunicación punto a punto de código abierto) han provocado mejoras increíbles en la velocidad de entrenamiento. Gracias a que RDMA permite a las GPU comunicarse directamente entre sí a través de nodos de hasta 100 gigabits por segundo (GB/s), pueden abarcar varios nodos y operar como si estuvieran en un servidor masivo.

Implementación

Implementación

Las empresas están cambiando a los contenedores de Kubernetes y de Docker para la implementación de canalizaciones a escala. La combinación de aplicaciones en contenedor con Kubernetes permite a las empresas cambiar las prioridades sobre la tarea más importante y aporta resistencia, fiabilidad y escalabilidad a los centros de datos de IA.

Almacenamiento

Almacenamiento

GPUDirect® Storage permite que NVMe y NVMe over Fabric (NVMe-oF) lean y escriban datos directamente en la GPU, omitiendo la CPU y la memoria del sistema. Esto libera la CPU y la memoria del sistema para otras tareas, al tiempo que proporciona a cada GPU acceso a pedidos de magnitud de más datos con un ancho de banda hasta un 50 % mayor.

Nuestro compromiso con la ciencia de datos de código abierto

NVIDIA se compromete a simplificar, unificar y acelerar la ciencia de los datos para la comunidad de código abierto. Al optimizar toda la pila, del hardware al software, y eliminar los cuellos de botella de la ciencia de datos iterativa, NVIDIA ayuda a los científicos de datos de todo el mundo a hacer más que nunca con menos. Esto se traduce en más valor para las empresas a partir de sus recursos más valiosos: sus datos y científicos de datos. Como software de código abierto para Apache 2.0, RAPIDS reúne un ecosistema en las GPU.

Sin potencia de computación, los científicos de datos tuvieron que "simplificar" sus algoritmos para que funcionaran lo suficientemente rápido. Ya no. Las GPU nos permiten hacer cosas que antes no podíamos hacer.

- Bill Groves, director de datos de Walmart

Los modelos globales de la NASA producen terabytes de datos. Antes de RAPIDS, pulsarías el botón y esperarías seis o siete horas para obtener los resultados. La aceleración del ciclo de entrenamiento fue un cambio radical en el desarrollo de los modelos.

- Dr. John Keller, NASA Goddard Space Flight Center

Con una mejora 100 veces mayor en los tiempos de entrenamiento de modelos y un ahorro de costes del 98 %, Capital One ve RAPIDS.ai y Dask como las próximas grandes apuestas en ciencia de datos y aprendizaje automático.

- Mike McCarty, director de ingeniería de software de Capital One Center for Machine Learning

Empezar a trabajar hoy