Cloud-Native Supercomputing

Prestazioni HPC e IA senza compromessi,
isolamento tenant multi-nodo e sicurezza.

Prestazioni bare-metal con isolamento multi-tenant

Il supercomputing cloud-native unisce la potenza del calcolo ad alte prestazioni con la sicurezza e la facilità d'uso dei servizi di cloud computing. La piattaforma NVIDIA Cloud-Native Supercomputing sfrutta la tecnologia delle unità di elaborazione dati (DPU) NVIDIA® BlueField® con networking NVIDIA® Mellanox® InfiniBand ad alta velocità e a bassa latenza per fornire prestazioni di livello bare-metal, gestione e isolamento utenti, protezione dei dati e servizi HPC e IA on-demand, in modo semplice e sicuro.

Innovazione per il prossimo decennio e oltre

La piattaforma supercomputing cloud-native

Per offrire le massime prestazioni, i supercomputer devono garantire sicurezza multi-tenant, che si ottiene, idealmente, con le piattaforme cloud-native. L'elemento chiave che permette questa transizione nell'architettura è la DPU. 

Come piattaforma di data center su chip completamente integrata, la DPU può ridurre il carico e gestire l'infrastruttura del data center anziché il processore host, consentendo la sicurezza e l'orchestrazione del supercomputer. 

Abbinata a switching con NVIDIA Mellanox® InfiniBand, questa architettura garantisce prestazioni ottimali di livello bare-metal, supportando in modo nativo l'isolamento di tenant multi-nodo.

Cloud-Native Supercomputing Platform
Toward a Zero-Trust Architecture

Verso un'architettura zero-trust

I sistemi di supercomputing cloud-native sono progettati per offrire le massime prestazioni, sicurezza e orchestrazione in un ambiente multi-tenant.

La DPU BlueField può ospitare tenant multinodo non attendibili, garantendo al contempo che le risorse di supercomputing vengano trasferite pulite ai nuovi tenant senza residui precedenti. Per raggiungere questo obiettivo, la DPU BlueField fornisce un'immagine di avvio pulita per un nuovo tenant pianificato, esegue una pulizia completa e ripristina l'attendibilità, virtualizza lo storage e concede l'accesso alle aree di storage approvate.

Accelerazione delle prestazioni dell'applicazione

I framework e le librerie di comunicazione HPC e AI sono sensibili alla latenza e alla larghezza di banda e svolgono un ruolo fondamentale nel determinare le prestazioni delle applicazioni.

Il trasferimento del carico dalle librerie dalla CPU host o dalla GPU alla DPU Bluefield determina il più alto livello di sovrapposizione per la progressione parallela di comunicazione e calcolo. Riduce inoltre gli effetti negativi del jitter del sistema operativo e aumenta notevolmente le prestazioni dell'applicazione. Questa è la chiave di volta per la nuova generazione di architetture di supercomputing. 

I primi risultati della ricerca dell'Ohio State University dimostrano che i supercomputer cloud-native possono eseguire processi HPC con una velocità 1,4 superiore rispetto ai sistemi tradizionali.

DPU Provides 1.4X Higher Performance Acceleration for P3DFFT

HPC and AI communication frameworks

Piattaforma supercomputing cloud-native

NVIDIA Bluefield

La DPU NVIDIA BlueField abbina l'adattatore di rete leader di settore NVIDIA ConnectX®, con una serie di ARM Core con sottosistema PCIe e motori di accelerazione hardware HPC appositamente progettati per garantire la piena programmabilità dell'infrastruttura del data center su chip.

InfiniBand

Le soluzioni di networking NVIDIA InfiniBand accelerano e riducono il carico dei trasferimenti di dati per assicurare il bilanciamento delle risorse di calcolo superando i problemi di mancanza di dati o larghezza di banda. La rete InfiniBand può essere partizionata tra diversi utenti o tenant, fornendo sicurezza e garanzie QoS.

DOCA

L'SDK NVIDIA DOCA permette agli sviluppatori dell'infrastruttura di creare rapidamente applicazioni e servizi di rete, storage, sicurezza, gestione, IA e HPC sulla DPU NVIDIA BlueField, sfruttando API standard di settore. Con DOCA, gli sviluppatori possono programmare l'infrastruttura di supercomputing del futuro, creando servizi ad alte prestazioni, software-defined, cloud-native e accelerati da DPU.

Magnum IO

Il kit di sviluppo software NVIDIA MAGNUM IO™ consente agli sviluppatori di ottimizzare l'input/output (IO) nelle applicazioni, accelerando i flussi di lavoro.

Magnum IO copre tutti gli aspetti dell'IO, tra cui storage, rete, multi-GPU e comunicazioni multi-nodo. Include anche strumenti per profilare e ottimizzare le applicazioni ed eliminare i colli di bottiglia IO.

Caratteristiche principali

  • Isolamento multi-tenant, protezione dei dati e sicurezza
  • Riduzione del carico dei servizi sull'infrastruttura
  • Motori hardware dedicati per accelerare i framework di comunicazione
  • Qualità del servizio migliorata (QoS)

Vantaggi

  • Prestazioni ottimali di livello bare-metal
  • Maggiore disponibilità della CPU, scalabilità delle applicazioni ed efficienza del sistema
  • Maggiore sovrapposizione di calcolo e comunicazione
  • Riduzione del jitter/rumore del sistema
  • Riduzione dei costi dell'infrastruttura

Scopri di più sul supercomputing cloud-native nella panoramica tecnica.