Нативные облачные супервычисления

Бескомпромиссная производительность HPC и ИИ,
многоузловая изоляция клиента и безопасность.

Производительность на уровне Bare-Metal с многопользовательской изоляцией

Облачные супервычисления сочетают в себе мощь высокопроизводительных вычислений с безопасностью и простотой использования облачных сервисов. Суперкомпьютерная нативная облачная платформа NVIDIA использует архитектуру блока обработки данных (DPU) NVIDIA® BlueField® и высокоскоростную сеть NVIDIA® Mellanox® InfiniBand с минимальной задержкой, чтобы просто и безопасно обеспечить производительность на уровне «голых» серверов, изоляцию и управление пользователями, защиту данных, высокопроизводительные вычисления (HPC) и сервисы ИИ.

Будущие инновации

Платформа для нативных облачных супервычислений

Для максимальной производительности суперкомпьютерам необходимо обеспечивать многопользовательскую безопасность, что в идеале осуществляется с помощью облачных платформ. Ключевым элементом, обеспечивающим такой переход, является DPU 

Являясь полностью интегрированной платформой дата-центра-на-чипе, DPU может разгружать и управлять инфраструктурой дата-центра вместо основного процессора и обеспечить безопасность и оркестрацию суперкомпьютера. 

В сочетании с коммутацией NVIDIA Mellanox® InfiniBand эта архитектура обеспечивает оптимальную производительность на уровне «голых» серверов и поддерживает многоузловую изоляцию клиента.

Cloud-Native Supercomputing Platform
Toward a Zero-Trust Architecture

Безопасность с нулевым доверием

Облачные суперкомпьютерные системы разработаны для обеспечения максимальной производительности, безопасности и оркестрации в многопользовательской среде.

DPU BlueField может размещать недоверенных пользователей, гарантируя при этом, что суперкомпьютерные ресурсы будут переданы новым клиентам чистыми. Для этого DPU BlueField обеспечивает чистый загрузочный образ для нового клиента, выполняет полную очистку и восстановление доверия, виртуализирует хранилище и предоставляет доступ к утвержденным областям хранения.

Ускорение производительности приложений

Фреймворки для HPC и ИИ и библиотеки чувствительны к задержкам и пропускной способности и играют важную роль в определении производительности приложений.

Разгрузка библиотек от основного процессора или GPU в DPU Bluefield создает самую высокую степень перекрытия для параллельной передачи данных и вычислений. Это также снижает негативное влияние джиттера ОС и значительно повышает производительность приложений. Это позволяет создать архитектуру супервычислений следующего поколения. 

Ранние результаты исследований, проведенных в Университете штата Огайо, показывают, что облачные суперкомпьютеры могут выполнять  задачи HPC в 1,4 раза быстрее традиционных.

DPU Provides 1.4X Higher Performance Acceleration for P3DFFT

HPC and AI communication frameworks

Платформа для нативных облачных супервычислений

NVIDIA Bluefield

DPU NVIDIA BlueField сочетает в себе лучший в своем классе сетевой адаптер NVIDIA ConnectX®,  ядра Arm с подсистемой PCIe и обеспечивает аппаратное ускорение и полную программируемость инфраструктуры дата-центра на чипе.

InfiniBand

Сетевые решения NVIDIA InfiniBand ускоряют и разгружают передачу данных, не допуская простоев вычислительных ресурсов из-за задержки данных или низкой пропускной способности. Сеть InfiniBand может быть разделена между разными пользователями или клиентами, обеспечивая безопасность и гарантии QoS.

DOCA

SDK NVIDIA DOCA позволяет разработчикам быстро создавать приложения для сетей, СХД, безопасности, управления, ИИ и HPC и сервисы на базе DPU NVIDIA BlueField, используя стандартные API. С помощью DOCA разработчики могут программировать супервычислительную инфраструктуру будущего, создавая высокопроизводительные, программно-определяемые, облачные сервисы DPU.

Magnum IO

Набор инструментов NVIDIA MAGNUM IO™ позволяет разработчикам оптимизировать ввод-вывод в приложениях и сократить время выполнения задач.

Magnum IO охватывает все аспекты ввода-вывода, включая хранение, сеть, multi-GPU и многоузловые системы. Он также включает в себя инструменты для профилирования и настройки приложений и устранения узких мест ввода-вывода.

Основные характеристики

  • Многопользовательская изоляция, защита данных и безопасность
  • Разгрузка инфраструктуры
  • Специализированные аппаратные движки для ускорения коммуникационных фреймворков
  • Гарантированное качество обслуживания (QoS)

Преимущества

  • Оптимальная производительность на уровне bare-metal
  • Повышение доступности процессора, масштабируемости приложений и эффективности системы
  • Вычисления и коммуникации с высоким перекрытием
  • Снижение джиттера / шумоподавление
  • Снижение затрат на инфраструктуру

Подробнее о нативных облачных супервычислениях в техническом обзоре.