Практикум под руководством инструктора
Ускорение инжиниринга данных

Инжиниринг данных является основой data science и создает базу для анализа и моделирования. Чтобы компании могли извлекать важную информацию из структурированных и неструктурированных данных, необходим быстрый доступ к точным и полным наборам данных. Работа с огромными объемами данных из разрозненных источников требует надежной инфраструктуры и профессиональных знаний. При масштабировании до больших объемов данных даже незначительная неэффективность может привести к серьезным затратам как времени, так и средств.

На этом семинаре вы узнаете, как графические процессоры и использование передовых инструментов и методов инжиниринга данных могут ускорить конвейеры данных. Быстрая обработка данных, позволяет создавать более точные дешборды и модели машинного обучения, чтобы пользователи могли получать доступ к последней информации одним нажатием кнопки.

 

Цели обучения


На этом практикуме вам предстоит узнать:
  • Как происходит обмен данными внутри компьютера. Как добиться баланса между процессором, DRAM, дисковой памятью и графическими процессорами.
  • Как читаются и обрабатываются различные форматы файлов.
  • Как масштабировать процессы ETL на несколько GPU с помощью NVTabular.
  • Как создать интерактивную панель мониторинга Plotly, где пользователи смогут фильтровать большие объемы данных менее чем за секунду.

Скачать описание практикума (PDF, 318 KБ)

Краткое описание практикума

Введение
(15 мин)
Данные на аппаратном уровне
(60 мин)
    Вы изучите сильные и слабые стороны различных аппаратных подходов к данным и поддерживающих их фреймворков:
    • Pandas
    • CuDF
    • Dask
Перерыв (15 мин)
ETL с NVTabular
(120 мин)
    Вы узнаете как масштабировать конвейер ETL с одного графического процессора до нескольких для рекомендательных систем на больших данных с помощью NVTabular.
    • Вы преобразуете необработанные данные json в готовые к анализу файлы parquet
    • Вы узнаете, как быстро добавлять в набор данных функции, такие как Categorify и Lambda.
Перерыв (60 мин)
Визуализация данных
(120 мин)
    Станьте метеорологом и научитесь наносить данные об осадках на карту.
    • Узнайте, как использовать описательную статистику и графики, такие как гистограммы, для оценки качества данных.
    • Узнайте подробнее об эффективном использовании памяти, чтобы пользователи могли быстро фильтровать данные через графический интерфейс.
Заключительный проект: Найдите ошибки
(60 мин)
    Пользователи жалуются, что панель мониторинга работает слишком медленно. Примените методы, изученные на практикуме, чтобы найти и устранить ошибки в бэкенд-коде.
Окончательный анализ
(15 мин)
  • Подведем итоги семинара и ответим на вопросы
  • Финальное тестирование и получение сертификат
  • Сбор обратной связи
  • Узнайте, как настроить собственную среду для разработки приложений ИИ.
 

Информация о практикуме

Продолжительность: 8 часов

Цена: для уточнения стоимости свяжитесь с нами.

Необходимые требования:

Технологии: pandas, cuDF, Dask, NVTabular, Plotly

Метод контроля: Тестирования проводятся на основе навыков, полученных во время практикума, и оценивают способность студентов эффективно фильтровать огромные объемы данных для работы с интерактивной панелью.

Сертификат: После успешного завершения тестирования вы получите сертификат NVIDIA DLI для подтверждения своей квалификации и возможностей дальнейшего карьерного роста.

Аппаратные требования: Вам потребуется ПК или ноутбук с поддержкой последней версии Chrome или Firefox. Вам будет предоставлен доступ к полностью настроенной GPU-ускоренной станции в облаке.

Языки: английский

Предстоящие практикумы

Если ваша компания заинтересована в развитии навыков в работе с ИИ, анализом данных и ускоренными вычислениями, начните комплексное обучение с помощью решений от NVIDIA DLI.

Продолжите обучение с другими практикумами от DLI

У вас возникли вопросы?