La ingeniería de datos es la base de la ciencia de datos y realiza el trabajo preliminar para el análisis y el modelado. Para que las organizaciones puedan analizar datos con y sin estructura, es indispensable que cuenten con acceso rápido y total a los conjuntos de datos. Trabajar con grandes cantidades de datos provenientes de distintas fuentes requiere experiencia e infraestructuras complejas. Las más ínfimas deficiencias pueden ser muy costosas (tanto en términos de tiempo como de dinero) al escalarlas de millones a billones de puntos de datos.

En este workshop, exploraremos cómo las GPU pueden mejorar los pipelines de datos y cómo usar herramientas y técnicas de ingeniería de datos avanzadas  pueden acelerar considerablemente el rendimiento. Al usar pipelines más rápidos, se pueden producir modelos de machine learning (ML) y paneles más actualizados, para que los usuarios tengan la información más reciente a mano.

 

Objetivos de Aprendizaje


Al participar en este workshop, aprenderás lo siguiente:
  • Cómo se desplazan los datos en una computadora. Cómo conseguir el balance ideal entre la CPU, la DRAM, la memoria en el disco y las GPU.
  • Cómo el hardware puede leer y modificar los distintos formatos de archivo.
  • Cómo escalar un pipeline de ETL con varias GPU usando NVTabular.
  • Cómo diseñar un panel interactivo de Plotly con el que los usuarios puedan filtrar millones de puntos de datos en menos de un segundo.

Descargar la hoja de datos del workshop (PDF 318 KB)

Esquema del Workshop

Introducción
(15 minutos)
Datos a Nivel del Hardware
(60 minutos)
    Explora las ventajas y desventajas de cada hardware a la hora de abordar los datos y los frameworks en los que están basados:
    • Pandas
    • CuDF
    • Dask
Descanso (15 minutos)
ETL con NVTabular
(120 minutos)
    Aprende cómo escalar un pipeline de ETL, desde una GPU hacia varias GPU, con NVTabular, a través de la perspectiva de un sistema de recomendación de big data.
    • Convierte archivos json sin procesar en paquetes de archivos compatibles con análisis
    • Aprende cómo agregar rápidamente funciones a un conjunto de datos, como operadores Lambda y de Categorificación
Descanso (60 minutos)
Visualización de Datos
(120 minutos)
    Nos pondremos en la piel de un meteorólogo y aprenderemos cómo insertar datos de precipitación en un mapa.
    • Aprende cómo usar estadísticas descriptivas y gráficos como histogramas para evaluar la calidad de los datos
    • Aprende cómo usar datos con eficacia, para que los usuarios puedan filtrar datos a través de una interfaz gráfica
Proyecto Final: Detective de Datos
(60 minutos)
    Los usuarios se quejan de que el panel es demasiado lento. Usa las técnicas aprendidas en clase para detectar y eliminar las deficiencias en el código del backend
Revisión Final
(15 minutos)
  • Repasa los conceptos clave y realiza preguntas.
  • Completa la evaluación y obtén tu certificado.
  • Realiza la encuesta del workshop.
  • Aprende cómo implementar tu propio entorno de desarrollo de aplicaciones de IA.
 

Detalles del Workshop

Duración: 8 horas

Precio: $500 para workshops públicos, comunícate con nosotros para obtener información sobre los workshops empresariales.

Requisitos:

Tecnologías: pandas, cuDF, Dask, NVTabular, Plotly

Tipo de Evaluación: Las evaluaciones prácticas de programación miden tu capacidad para filtrar de forma eficiente millones de puntos de datos en el contexto de un panel interactivo.

Certificado: Al aprobar la evaluación, recibirás un certificado del DLI de NVIDIA para validar tu competencia en el campo de estudio y contribuir al crecimiento de tu carrera profesional.

Requisitos de Hardware: Necesitarás una laptop o desktop capaz de ejecutar la última versión de Chrome o de Firefox. Se te otorgará acceso dedicado a una workstation en el cloud acelerada por GPU y completamente configurada.

Idiomas: Inglés

Próximos Workshops

Próximos Workshops Públicos

Europa/Oriente Medio/África

Martes, 6 de julio de 2021
9:00 a. m. a 5:00 p. m. (CEST)

América del Norte/América Latina

Martes, 13 de julio de 2021
9:00 a. m. a 5:00 p. m. (PDT)

Si tu organización está interesada en impulsar y mejorar sus capacidades de desarrollo con respecto a la IA, la ciencia de datos acelerada o la computación acelerada, puedes solicitar una capacitación a cargo de un instructor del DLI de NVIDIA.

Sigue Aprendiendo con Estas Capacitaciones del DLI

Aspectos Básicos de la Ciencia de Datos Acelerada

Computación de Alto Rendimiento con Contenedores

PREGUNTAS?