"Dato che volevamo migliorare continuamente la nostra rappresentazione invertibile dello spazio chimico, avevamo bisogno di una piattaforma che consentisse una sperimentazione rapida e una gestione semplice", dichiara John Parkhill, Direttore del reparto di Machine Learning di Terray. "DGX Cloud ci ha offerto una soluzione che funzionava perfettamente con la facilità e la semplicità del cloud. La sua rete ad alta velocità, costruita appositamente per l'addestramento multi-nodo, era di fondamentale importanza per le nostre esigenze. Trattandosi di dataset di terabyte o più grandi, abbiamo bisogno di risorse computazionali significative per addestrare efficacemente i nostri modelli".
"Inoltre, la capacità di condurre rapidamente esperimenti per tentativi ed errori è estremamente preziosa nella nostra ricerca sullo sviluppo dei modelli, poiché l'identificazione degli iper-parametri più efficaci è spesso un compito impegnativo. L'esecuzione rapida dei lavori su DGX Cloud ci ha permesso di identificare rapidamente gli errori e di apportare le necessarie modifiche ai modelli. Ad esempio, ho potuto eseguire numerosi studi di ablazione, come la disabilitazione delle funzioni del modello, per stabilire, ad esempio, se l'alterazione degli elementi del tokenizer del trasformatore sia efficace o meno", dichiara Williams.
"Il nostro processo di impostazione dei lavori di addestramento è passato dalla scomodità di inserire manualmente il codice nelle macchine remote e garantire la sincronizzazione alla semplicità di premere "Esegui" su DGX Cloud. Non abbiamo nemmeno dovuto modificare molto il nostro codice esistente. Con la piattaforma Base Command, la gestione dei lavori di addestramento multi-nodo è stata essenzialmente automatizzata. Questo ci ha permesso di scalare in un modo che sarebbe stato impossibile".
La disponibilità di un'allocazione fissa di nodi su DGX Cloud ha inoltre consentito di ottenere una maggiore efficienza. "Chiedere continuamente istanze di GPU ai servizi cloud tradizionali che sembrano non essere in grado di renderle disponibili è un'esperienza davvero spiacevole. Se ho bisogno di un nuovo nodo per un esperimento a cui sto lavorando, non so se e quando potrò ottenerlo. Con DGX Cloud, non devo preoccuparmi di questo". afferma Williams.
"In qualità di data scientist, il mio limite non è più una workstation con una piccola GPU, ma l'intera capacità del cloud di Terray. DGX Cloud con piattaforma Base Command mi permette di passare da un singolo nodo a un cluster di 32 GPU con la semplicità di un pulsante", ha aggiunto Parkhill. DGX Cloud ci offre il livello di astrazione di cui hanno bisogno i nostri sviluppatori, che possono così concentrarsi sull'innovazione anziché sull'infrastruttura".
Terray sfrutta un approccio ibrido, in cui addestra e costruisce i propri modelli su DGX Cloud e distribuisce ed esegue l'inferenza sul proprio cluster on-premise con GPU NVIDIA RTX™ A6000. Quando i carichi di lavoro aumentano, DGX Cloud offre elasticità e fluidità delle risorse.
"Gli esperti di IA di NVIDIA sono stati essenziali per il nostro successo” dichiara Williams. "Avevamo un esperto dedicato che ispezionava i nostri log per assicurarsi che tutto funzionasse senza intoppi e per identificare eventuali problemi. Individuando ottimizzazioni semplici in PyTorch e CUDA® a cui non avevamo pensato, hanno migliorato in modo significativo l'efficienza dei nostri carichi di lavoro. Inoltre, ci hanno assistito nello sviluppo di script che hanno fornito preziose informazioni sui dati telemetrici, permettendoci di monitorare l'attività della memoria e di migliorare le prestazioni. Il supporto degli esperti di IA di NVIDIA ci ha permesso di spostare la nostra attenzione dall'ottimizzazione del processo alla conduzione di esperimenti, dato che si tratta principalmente di un progetto di ricerca e sviluppo".