„Wir wollten unsere invertierbare Darstellung des chemischen Raums kontinuierlich verbessern und benötigten daher eine Plattform, die schnelle Experimente und eine einfache Verwaltung ermöglicht“, sagte John Parkhill, Direktor für Machinelles Lernen bei Terray. „DGX Cloud bot uns eine Lösung, die nahtlos mit der Einfachheit der Cloud arbeitete. Das speziell für das Training mit Multi-Node-Knoten entwickelte Hochgeschwindigkeitsnetzwerk war für unsere Anforderungen besonders wichtig. Da wir es mit Datensätzen von Terabyte oder mehr zu tun haben, benötigen wir erhebliche Rechenressourcen, um unsere Modelle effektiv zu trainieren.“
„Darüber hinaus ist es für unsere Modellentwicklungsforschung besonders wichtig, Trial-and-Error-Experimente schnell durchzuführen zu können, da die Identifizierung der effektivsten Hyperparameter oft eine herausfordernde Aufgabe ist. Durch die schnelle Auftragsausführung auf der DGX Cloud konnten Fehler schnell erkannt und die notwendigen Anpassungen an den Modellen vorgenommen werden. Ich könnte zum Beispiel zahlreiche Ablationsstudien durchführen, wie etwa die Deaktivierung von Modellfunktionen, um herauszufinden, ob die Änderung von Elementen des Tokenizers des Transformators Auswirkungen hat oder unbedeutend ist“, sagte Williams.
„Unser Prozess zur Einrichtung von Trainingsaufträgen erforderte früher eine mühsame manuellen Weiterleitung von Code auf Remote-Geräte und die Sicherstellung der Synchronisation, doch heute drücken wir einfach nur auf ‚Run‘ auf der DGX Cloud. Wir mussten unseren vorhandenen Code nicht einmal viel ändern. Mit der Base Command-Plattform wurde die Orchestrierung von Trainingsaufträgen mit Multi-Node für uns im Wesentlichen automatisiert. Dadurch konnten wir auf eine Weise skalieren, die sonst unmöglich gewesen wäre.“
Eine feste Zuordnung von Knoten auf der DGX Cloud führte auch zu einer höheren Effizienz. „Es ist eine sehr unangenehme Erfahrung, ständig GPU-Instanzen bei herkömmlichen Cloud-Services anzufordern, die diese anscheinend nicht zur Verfügung stellen können. Wenn ich für ein Experiment, an dem ich gerade arbeitete, einen neuen Knoten benötigte, wusste ich nicht, ob und wann ich einen bekommen könnte. Mit der DGX Cloud musste ich mir darüber keine Sorgen mehr machen“, so Williams.
„Als Datenwissenschaftler bin ich nicht mehr nur auf eine kleineGPU-Workstation angewiesen, sondern die gesamte Cloud-Kapazität von Terray steht mir zur Verfügung. Mit der DGX Cloud und der Base Command-Plattform kann ich mit nur einem Knopfdruck von einem einzelnen Knoten zu einem 32-GPU-Cluster wechseln“, fügte Parkhill hinzu. „Die DGX Cloud gibt uns das Abstraktionsniveau, das unsere Entwickler brauchen, damit sie sich auf Innovation statt auf Infrastruktur konzentrieren können.“
Terray verwendet einen hybriden Lösungsansatz, bei dem die Modelle des Unternehmens auf der DGX Cloud trainiert und entwickelt und die Bereitstellung und Ausführung der Inferenz auf dem lokalen Cluster mit NVIDIA RTX™ A6000 GPUs erfolgt. Wenn die Workloads steigen, bietet DGX Cloud Elastizität und Liquidität von Ressourcen.
„Die KI-Experten von NVIDIA waren der Schlüssel zu unserem Erfolg“, so Williams. „Wir haben unsere Protokolle von einem Experten untersuchen lassen, um einen reibungslosen Ablauf zu gewährleisten und mögliche Fehler zu erkennen. Durch einfache Optimierungen in PyTorch und CUDA®, an die wir noch nicht gedacht hatten, konnten sie die Effizienz unserer Workloads erheblich verbessern. Darüber hinaus halfen sie bei der Entwicklung von Skripten, die wertvolle Einblicke in Telemetriedaten lieferten, sodass wir die Speicheraktivität überwachen und die Leistung verbessern konnten. Mithilfe der KI-Experten von NVIDIA konnten wir unseren Fokus von der Optimierung des Prozesses auf die Durchführung von Experimenten zu verlagern, da es sich hier in erster Linie um ein F&E-Projekt handelt.“