« Parce que notre objectif était l’amélioration continue de notre représentation inversible de l’espace chimique, nous avions besoin d’une plate-forme qui permettrait une expérimentation rapide et une gestion facile », a déclaré John Parkhill, Responsable du machine learning chez Terray. « DGX Cloud nous a offert une solution qui fonctionnait de manière transparente avec la facilité et la simplicité du cloud. Son réseau à haute vitesse, conçu pour la formation multi-nœuds, était particulièrement indispensable pour nos besoins. Nous traitons des ensembles de données en téraoctets, voire plus. Nous avons par conséquent besoin de ressources de calcul importantes pour former nos
modèles efficacement. » « Par ailleurs, la capacité de mener rapidement des expériences d’essais et d’erreurs est très précieuse dans notre recherche de développement de modèles, car l’identification des hyperparamètres les plus efficaces est souvent une tâche ardue. L’exécution rapide des tâches sur DGX Cloud nous a permis d’identifier rapidement les défaillances et d’apporter les ajustements nécessaires aux modèles. Je pouvais par exemple effectuer de nombreuses études d’ablation, telles que la désactivation des fonctionnalités du modèle, afin de déterminser si, par exemple, l’altération des éléments du tokenizer du transformateur avait une incidence ou non », déclare Williams. « Avec notre processus de configuration des tâches d’entraînement, nous sommes passés de la diificulté à entrer les codes dans des machines gérées à distance chargées de la synchronisation, à un simple clic sur la commande « exécuter » sur DGX Cloud. Nous n’avons pas eu à modifier énormément notre code. Grâce à Base Command Platform, l’orchestration des tâches d’entraînement multi-nœuds est devenue quasiment automatique. Cela nous a permis de réaliser une mise à l’échelle qui aurait été impossible en d’autres circonstances ». Avoir une allocation fixe de nœuds sur DGX Cloud a également permis de faire plus d’économies. « Il est assez pénible de demander en permanence des instances GPU aux services de cloud conventionnels, alors qu’ils semblent incapables de les fournir, car si j’ai besoin d’un nouveau nœud pour mener une expérience, impossible de dire qyand je l’obtiendrai. Avec DGX Cloud en revanche, je n’ai pas de souci à me faire de ce côté là », a ajouté Williams.
« En tant que data scientist, je ne vise plus une petite station de travail GPU, mais tout l’espace cloud de Terray. DGX Cloud avec Base Command Platform me permet de passer d’un simple nœud à un cluster de 32 GPU avec aise en appuyant simplement sur une touche », a ajouté M. Parkhill. Avec DGX Cloud, nous avons le niveau d’abstrraction indispensable à nos développeurs pour se focaliser sur l’innovation et non sur l’infrastructure.
Terray a une approche basé sur une solution hybride lui permettant de d’entraîner et de construire ses modèles sur DGX Cloud et de déployer et exécuter l’inférence sur leur cluster sur site grâce aux GPU NVIDIA RTX™ A6000
. À mesure que la charge de travail s’intensifie, DGX Cloud assure l’élasticité et la liquidité des ressources. « Les spécialistes de l’IA de Nont grandement contribué à notre réussité », ajoute Williams. « Nous avions un expert à dispositon chargé d’analyser nos journaux pour s’assurer que tout fonctionnait correctement et identifier les problèmes.
En identifiant des optimisations simples auxuqelles nous n’avions pas pensé dans PyTorch et CUDA®, ils ont grandement amélioré l’efficacité de nos tâches. En outre, ils nous ont accompagnés dans l’écriture de scripts fournissant des informations précieuses sur les données télémétriques, ce qui nous a permis de surveiller l’activité de la mémoire et d’améliorer nos performances.
L’assistance des spécialistes de l’IA de NVIDIA nos a permis de passer de l’optimisation des processus à l’expérimentation, car il s’agit avant tout d’un projet R&D. »