This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

Высокопроизводительный
анализ данных

Используйте мощность графического процессора для ускорения анализа данных, машинного обучения и задач ИИ.

Выполняйте задачи анализа данных при помощи высокоскоростных вычислений на GPU и распараллеливайте процессы загрузки и управления данными и машинного обучения для ускорения всего конвейера обработки данных в 50 раз.

Почему RAPIDS?

Сегодня анализ данных и машинное обучение — это основные вычислительные задачи. Небольшое повышение точности аналитических моделей приводит к миллиардам прибыли. Специалисты по data science обучают, тестируют, создают итерации и переобучают модели для их оптимизации, повышения производительности и получения высокоточных результатов. Вы можете изучать лабораторные практикумы RAPIDS благодаря NVIDIA LaunchPad, а с помощью NVIDIA AI Enterprise мы можем поддержать ваше предприятие на всех этапах проектов в области ИИ.

Для преобразования исходных данных в набор данных для обучения требуется ряд итераций, что создает множество комбинаций алгоритмов. Для них необходимо настроить гиперпараметры, чтобы найти правильные комбинации моделей, параметров моделей и характеристики данных для оптимальной точности и производительности.

Создание высокопроизводительной экосистемы

RAPIDS — это набор открытых библиотек ПО и API для выполнения задач анализа данных полностью на GPU, который позволяет сократить время тренировки моделей с нескольких дней до считанных минут. Созданный на основе NVIDIA^® CUDA-X AI^™ RAPIDS сочетает в себе достижения в графике, машинном и глубоком обучении, высокопроизводительных вычислениях (HPC) и других технологиях.

Ускорение выполнения операций

Благодаря обработке и анализу данных увеличение объема вычислений позволяет быстрее получать ценную информацию. RAPIDS использует NVIDIA CUDA® для ускорения ваших рабочих процессов за счет запуска всего конвейера обучения моделей обработки и анализа данных на графических процессорах. Это позволяет сократить время обучения модели с нескольких дней до нескольких минут.

Привычные инструменты

Сложности работы с GPU и даже коммуникации протоколов передачи данных скрыты в архитектуре дата-центра, благодаря чему RAPIDS упрощает анализ данных. Все больше специалистов по data science используют Python и другие высокоуровневые языки программирования, поэтому ключевым требованием становится ускорение без изменений кода.

Поддержка масштабирования

RAPIDS можно запускать в любом месте: в облаке или на локальных системах. Платформу можно легко масштабировать как на рабочих станциях, так и на серверах с несколькими GPU и кластерах с несколькими узлами, а также развертывать на производстве с помощью Dask, Spark, MLFlow и Kubernetes.

Data Science для предприятий

Доступ к надежной поддержке часто имеет существенное значение для организаций, использующих data science для получения критически важной информации. Глобальная корпоративная поддержка NVIDIA доступна с NVIDIA AI Enterprise, комплексным программным пакетом искусственного интеллекта, который включает в себя гарантированное время отклика, приоритетные уведомления безопасности, регулярные обновления и доступ к экспертам NVIDIA по искусственному интеллекту.

Максимальная скорость работы с большими данными

Результаты тестов показывают, что графические процессоры значительно сокращают затраты и время при выполнении задач анализа больших данных разного масштаба. Используя привычные API, такие как Pandas и Dask, RAPIDS работает с наборами данных объемом 10 ТБ на GPU до 20 раз быстрее, чем на CPU. Решение NVIDIA использует мощность 16 ускорителей NVIDIA DGX A100, сопоставимых по производительности с 350 серверами на базе CPU, и при этом в 7 раз экономичнее и обеспечивает мощность для HPC.

Читать Пост ›

Быстрый доступ, меньше перемещений данных

Общие задачи обработки данных состоят из нескольких этапов (конвейер обработки данных), с которыми Hadoop не может эффективно справляться. Apache Spark решил эту проблему путем переноса данных в системную память, что позволило создать более гибкий конвейер обработки данных, но создало ряд других узких мест. Анализ даже нескольких сотен гигабайт (ГБ) данных на кластерах Spark с множеством узлов на базе CPU может занять несколько часов, а то и дней. Чтобы использовать весь потенциал data science, графические процессоры должны лежать в основе дата-центра, состоящего из пяти элементов: вычисление, сеть, хранилище, развертывание и программное обеспечение. В целом, анализ данных на GPU в 10 раз быстрее, чем на CPU.

Читать Блог ›

Эволюция обработки данных

Быстрый доступ, меньше перемещений данных

Широкая интеграция RAPIDS

RAPIDS создает основу для новой высокоэффективной экосистемы для анализа данных и снижает порог вхождения благодаря совместимости. Интеграция с ведущими фреймворками для анализа данных, такими как Apache Spark, cuPY, Dask и Numba, а также со многими фреймворками глубокого обучения, например PyTorch, TensorFlow и Apache MxNet, расширяет возможности применения и обеспечивает интеграцию с другими системами. RAPIDS и другие фреймворки вы можете найти в каталоге NGC.

Популярные проекты
Авторы
Пользователи
Открытое ПО

dask-sql — это распределенный SQL-движок, написанный на Python и выполняющий масштабные задачи извлечения, преобразования и анализа данных (ETL) с использованием RAPIDS для ускорения на GPU.

Построенная на базе RAPIDS библиотека NVTabular ускоряет конструирование признаков и предварительную обработку для рекомендательных систем на базе GPU.

Основанная на Streamz, написанная на Python и построенная на RAPIDS библиотека cuStreamz ускоряет обработку потоковых данных на GPU.

Интегрированный с RAPIDS фреймворк Plotly Dash позволяет проводить интерактивный визуальный анализ многогигабайтных наборов данных в реальном времени даже на одном GPU.

Ускоритель RAPIDS для Apache Spark предоставляет набор плагинов для Apache Spark, которые используют GPU для ускорения обработки с помощью программного обеспечения UCX и RAPIDS.

Технологии RAPIDS

RAPIDS использует примитивы CUDA для оптимизации низкоуровневых вычислений и открывает доступ к массово-параллельной архитектуре GPU и повышенной пропускной способности памяти с помощью удобных интерфейсов Python. RAPIDS поддерживает все процессы анализа и обработки данных: от загрузки и предварительной обработки до машинного обучения, анализа графов и визуализации. Это полнофункциональный стек на Python, который масштабируется для корпоративных сценариев использования больших данных.

Загрузка и предварительная обработка данных

Функции загрузки, предварительной обработки и извлечения и преобразования данных в RAPIDS основаны на Apache Arrow для загрузки, объединения, агрегации, фильтрации и других действий с данными и представлены в привычном специалистам по data science API, аналогичном Pandas. Пользователи могут рассчитывать на ускорение в 10 раз и выше.

Подробнее ›

Машинное обучение

Алгоритмы машинного обучения и математические примитивы RAPIDS используют привычный API, подобный Scikit-learn. XGBoost, Random Forest и другие популярные инструменты поддерживаются как для развертывания на одном GPU, так и в крупном дата-центре. Системы на базе GPU работают с большими наборами данных в 10–50 раз быстрее аналогичных решений на CPU.

Подробнее ›

Анализ графов

Алгоритмы графов RAPIDS, такие как PageRank, и функции, например NetworkX, успешно используют массово-параллельную архитектуру GPU для ускорения анализа больших графов более чем в 1000 раз. Один ускоритель NVIDIA A100 с тензорными ядрами обеспечивает до 200 миллионов ребер графов, а кластеры NVIDIA DGX^™ A100 — до миллиардов ребер.

Подробнее ›

Визуализация

Функции визуализации RAPIDS поддерживают перекрестную фильтрацию с GPU-ускорением. Созданное на основе JavaScript решение обеспечивает интерактивную и сверхбыструю многомерную фильтрацию более 100 миллионов строк табличных наборов данных.

Подробнее ›

Machine Learning to Deep Learning: All on GPU

Интеграция глубокого обучения

Хотя глубокое обучение успешно используется в таких областях, как компьютерное зрение, обработка естественного языка и рекомендательные системы, в некоторых сферах оно не так распространено. Для задач табличных данных, состоящих из столбцов категориальных и непрерывных переменных, обычно используют такие решения, как XGBoost, повышение градиента или линейные модели. RAPIDS ускоряет предварительную обработку табличных данных на GPU и обеспечивает беспрепятственную передачу данных непосредственно в любые фреймворки, поддерживающие DLPack, такие как PyTorch, TensorFlow и MxNet. Интеграция с этими платформами позволяет создавать сложные недоступные прежде рабочие процессы, например превращение новых функций, созданных из фреймворков глубокого обучения, обратно в алгоритмы машинного обучения.

Современные дата-центры для анализа данных

Существует пять ключевых элементов для создания в компании дата-центров, оптимизированных для ИИ. Ключевым является размещение GPU в центре.

Вычисления

Благодаря огромной вычислительной мощности системы на базе GPU NVIDIA являются основным вычислительным элементом для дата-центров с ИИ. Системы NVIDIA DGX обеспечивают революционную производительность ИИ и могут заменить в среднем 50 двухсокетных CPU серверов. Это первый шаг к оснащению специалистов по data science самыми передовыми инструментами для работы с данными.

Программное обеспечение

Сеть

Удаленный прямой доступ к памяти (RDMA) в сетевых адаптерах (NIC) NVIDIA Mellanox^®, библиотека NCCL2 и OpenUCX (открытый коммуникационный фреймворк) значительно повысили скорость тренировки моделей. RDMA позволяет графическим процессорам на разных узлах взаимодействовать напрямую со скоростью до 100 Гбит/с, как при работе на одном большом сервере.

Развертывание

Компании все чаще используют контейнеры Kubernetes и Docker для развертывания конвейеров. Сочетание контейнеризированных приложений с Kubernetes позволяет компаниям приоритизировать задачи и повышает устойчивость, надежность и масштабируемость дата-центров с ИИ.

Хранение

GPUDirect^® Storage позволяет как NVMe, так и NVMe over Fabric (NVMe-oF) считывать и записывать данные непосредственно на GPU в обход CPU и системной памяти. Это освобождает процессор и системную память для других задач и в то же время предоставляет доступ к значительно большему объему данных с пропускной способностью до 50% выше.

Наш вклад в открытое ПО для Data Science

NVIDIA стремится упростить, унифицировать и ускорить обработку данных для сообщества разработчиков открытого ПО. Оптимизируя весь программно-аппаратный стек и устраняя узкие места для анализа данных, NVIDIA ускоряет работу специалистов по data science в любой точке. Это позволяет компаниям эффективнее использовать самые ценные ресурсы: данные и опыт специалистов. В качестве открытого ПО Apache 2.0 RAPIDS объединяет экосистему на GPU.

Без вычислительной мощности специалистам по data science приходилось упрощать свои алгоритмы для быстрого исполнения. Теперь все изменилось. Графические процессоры позволяют нам выполнять невозможные прежде задачи.

— Билл Грувз (Bill Groves), директор по данным, Walmart

Глобальные модели NASA генерируют терабайты данных. До начала работы с RAPIDS ждать результатов приходилось шесть или семь часов. Ускорение цикла обучения полностью изменило процесс разработки моделей.

— Д-р Джон Келлер (John Keller), центр космических полетов Годдарда NASA

Ускорение обучения моделей в 100 раз и экономия 98% затрат позволяет Capital One говорить о RAPIDS.ai и Dask как о новых достижениях в области data science и машинного обучения.

— Майк Маккарти (Mike McCarty), директор по разработке ПО, центр машинного обучения Capital One

— Билл Грувз (Bill Groves), директор по данным, Walmart

— Д-р Джон Келлер (John Keller), центр космических полетов Годдарда NASA

— Майк Маккарти (Mike McCarty), директор по разработке ПО, центр машинного обучения Capital One

Начать работу

Смотреть видео

Высокопроизводительный анализ данных

Почему RAPIDS?

Создание высокопроизводительной экосистемы

Ускорение выполнения операций

Привычные инструменты

Поддержка масштабирования

Data Science для предприятий

Максимальная скорость работы с большими данными

Быстрый доступ, меньше перемещений данных

Эволюция обработки данных

Широкая интеграция RAPIDS

Технологии RAPIDS

Загрузка и предварительная обработка данных

Машинное обучение

Анализ графов

Визуализация

Интеграция глубокого обучения

Современные дата-центры для анализа данных

Вычисления

Программное обеспечение

Сеть

Развертывание

Хранение

Наш вклад в открытое ПО для Data Science

Начать работу

Высокопроизводительный
анализ данных