Gesundheitswesen & Life Sciences

Eine neue molekulare Sprache für generative KI in der Pharmaforschung mit kleinen Molekülen

Ziel

Terray Therapeutics verwendet gigantische Mengen an präzisen, experimentellen Daten, um mit der NVIDIA DGX™ Cloud Grundlagenmodelle für die Chemie und generative KI zu trainieren, die dem Entwerfen kleiner Moleküle dienen.

Kunde

Terray Therapeutics

Anwendungsfall

Generative KI

Produkte

NVIDIA Base Command-Plattform
NVIDIA DGX Cloud
NVIDIA AI Enterprise

Der Raum für chemische Verbindungen ist funktional unendlich, mit über 1060 (oder Novem-Quintilliarde) möglichen arzneimittelartigen Molekülen. Das Ziel der Pharmaforschung mit kleinen Molekülen ist die Erkundung diesen riesigen chemischen Raums, um die wenigen Moleküle zu finden, die ein Optimierungsproblem mit mehrfachen Paramtern lösen. Typische Programme zur Wirkstoffforschung sind sehr ineffizient und grundsätzlich eingeschränkt, da sie nur wenige Dutzend bis wenige hundert Verbindungen pro Woche erforschen können.

Terray Therapeutics will die Art und Weise ändern, wie Therapeutika mit kleinen Molekülen entdeckt und entwickelt werden. Die Plattform des Unternehmens kombiniert auf einzigartige Weise Experimente und Berechnungen, um das Versprechen generativer KI für die Entdeckung von Medikamenten mit kleinen Molekülen zu erfüllen und Lösungen für die schwierigsten therapeutischen Herausforderungen zu finden. Terray ist der Meinung, dass hochwertige, skalierte Daten die Antwort auf die Erschließung generativer KI für kleine Moleküle sind. Alles, was das Unternehmen tut, basiert auf einem iterativen Ansatz, der riesige Mengen präziser, speziell entwickelter Daten erzeugt, die die generative Optimierung von kleinen Molekülen ermöglichen. Mit dem gleichen Schwerpunkt auf neuartiger Wissenschaft im Labor und KI verbessert Terray die menschliche Gesundheit, indem es die Geschwindigkeit, Kosten und Erfolgsrate der Entwicklung von Medikamenten mit kleinen Molekülen verändert.

Terray Therapeutics

Image courtesy of Terray Therapeutics

Skalierung der Modellentwicklung zur Nutzung von Milliarden von Datenpunkten

Die Terray-Plattform misst täglich Hunderte von Millionen Wechselwirkungen zwischen kleinen Molekülen und biologischen Zielen, mit einer wachsenden Datenbank von 50 Milliarden experimentellen biophysikalischen Messungen. Diese Präzision ermöglicht neuartige Lösungen, paralleles Target-Screening und schnelle Hit-to-Lead-Analysen mit Millionen von Molekülen.

Der erste Schritt zur Nutzung generativer KI in der Wirkstoffforschung besteht darin, riesige Mengen an präzisen, experimentellen Daten zu sammeln, darunter viele vielversprechende Ausgangspunkte für das Medikamentendesign. Genauso wichtig ist aber die Kapazität, diese Daten verarbeiten zu können, um anwendbare Moleküle zu entwickeln. Um zwischen der Sprache der Moleküle und der Sprache der Berechnung (und umgekehrt) zu übersetzen, hat Terray COATI entwickelt, ein multimodales Encoder-Decoder-Modell für den chemischen Raum. Das Modell wandelt chemische Strukturen in nützliche numerische Darstellungen um, um Daten mit KI effizienter zu verarbeiten. Die numerische Darstellung eines Moleküls kann als Eingabe zur „Dekodierung“ oder Generierung von Molekülen mit gewünschten Eigenschaften verwendet werden, was ein generatives Molekulardesign ermöglicht.

Am Anfang der Entwicklung von COATI setzte Terray verschiedene Systeme ein, darunter lokale GPU-basierte Server und traditionelle Cloud-Services. Zuerst funktionierte diese Infrastruktur, bis das Unternehmen seine Modelle ausweitete. Dadurch, dass die Modelle größer und komplexer wurden, wurde die Bereitstellung und Konfiguration von verteilten Trainingsläufen zu einem Problem.

„Ich verbrachte Stunden mit der Einrichtung von Trainingsläufen, was sehr aufwendig war“, so Edward Williams, Ingenieur für maschinelles Lernen bei Terray. „Wir nutzen Torchrun für verteiltes Training. Mit der Hochskalierung unserer Modelle wurde es immer schwieriger, Ressourcen zuzuweisen und sicherzustellen, dass der Trainingscode über alle Knoten hinweg synchronisiert wird. Die Verfolgung und Handhabung von Fehlern war ähnlich aufwendig. Wenn etwas schiefging, habe ich erst nachträglich anstatt sofort davon erfahren. Die Zeit, die für die Einrichtung von Trainingsläufen erforderlich war, der manuelle Prozess der Übertragung von Änderungen auf Knoten in Verbindung mit der Unfähigkeit, zu wissen, ob ich einen zusätzlichen Knoten für meine Experimente nutzen kann, behinderte das Experimentieren und die Möglichkeit, unsere Forschungsanstrengungen zu skalieren.“

  • Die Entdeckung von Medikamenten mit kleinen Molekülen umfasst die Erforschung eines chemischen Raums, der funktionell unendlich ist. Typische Ansätze können nur einige Dutzend bis einige hundert Substanzen pro Woche erforschen.
  • Terray Therapeutics leistet Pionierarbeit bei der generativen KI für die Entwicklung kleinermolekularer Medikamente, bei der hochwertige, skalierte Daten und eine Mischung aus Experimentieren und Berechnung zum Einsatz kommen.
  • Terray entwickelte COATI, ein Grundmodell für die Chemie, das auf einem Datensatz von Hunderten von Millionen von kleinen Molekülen vortrainiert ist. COATI übersetzt Moleküle in mathematische Darstellungen, die es generativer KI ermöglichen, neue, optimierte Moleküle zu entwerfen.
  • NVIDIA DGX Cloud hat den Entwicklungsprozess von COATI deutlich verbessert, indem das Modelltraining von einer Woche auf nur einen Tag reduziert wurde und effizientere Experimente mit dedizierten GPUs und On-Demand-Ressourcenskalierung ermöglicht wurden.
  • Mit der NVIDIA Base Command™ Platform hat Terray die Infrastrukturnutzung um das 4x verbessert, da es Workloads einfacher konfigurieren und Modelle optimieren kann.

Image courtesy of Terray Therapeutics

NVIDIA DGX Cloud: Dedizierte Multi-Node-Training-Plattform für generative KI

„Wir wollten unsere invertierbare Darstellung des chemischen Raums kontinuierlich verbessern und benötigten daher eine Plattform, die schnelle Experimente und eine einfache Verwaltung ermöglicht“, sagte John Parkhill, Direktor für Machinelles Lernen bei Terray. „DGX Cloud bot uns eine Lösung, die nahtlos mit der Einfachheit der Cloud arbeitete. Das speziell für das Training mit Multi-Node-Knoten entwickelte Hochgeschwindigkeitsnetzwerk war für unsere Anforderungen besonders wichtig. Da wir es mit Datensätzen von Terabyte oder mehr zu tun haben, benötigen wir erhebliche Rechenressourcen, um unsere Modelle effektiv zu trainieren.“

„Darüber hinaus ist es für unsere Modellentwicklungsforschung besonders wichtig, Trial-and-Error-Experimente schnell durchzuführen zu können, da die Identifizierung der effektivsten Hyperparameter oft eine herausfordernde Aufgabe ist. Durch die schnelle Auftragsausführung auf der DGX Cloud konnten Fehler schnell erkannt und die notwendigen Anpassungen an den Modellen vorgenommen werden. Ich könnte zum Beispiel zahlreiche Ablationsstudien durchführen, wie etwa die Deaktivierung von Modellfunktionen, um herauszufinden, ob die Änderung von Elementen des Tokenizers des Transformators Auswirkungen hat oder unbedeutend ist“, sagte Williams.

„Unser Prozess zur Einrichtung von Trainingsaufträgen erforderte früher eine mühsame manuellen Weiterleitung von Code auf Remote-Geräte und die Sicherstellung der Synchronisation, doch heute drücken wir einfach nur auf ‚Run‘ auf der DGX Cloud. Wir mussten unseren vorhandenen Code nicht einmal viel ändern. Mit der Base Command-Plattform wurde die Orchestrierung von Trainingsaufträgen mit Multi-Node für uns im Wesentlichen automatisiert. Dadurch konnten wir auf eine Weise skalieren, die sonst unmöglich gewesen wäre.“

Eine feste Zuordnung von Knoten auf der DGX Cloud führte auch zu einer höheren Effizienz. „Es ist eine sehr unangenehme Erfahrung, ständig GPU-Instanzen bei herkömmlichen Cloud-Services anzufordern, die diese anscheinend nicht zur Verfügung stellen können. Wenn ich für ein Experiment, an dem ich gerade arbeitete, einen neuen Knoten benötigte, wusste ich nicht, ob und wann ich einen bekommen könnte. Mit der DGX Cloud musste ich mir darüber keine Sorgen mehr machen“, so Williams.

„Als Datenwissenschaftler bin ich nicht mehr nur auf eine kleineGPU-Workstation angewiesen, sondern die gesamte Cloud-Kapazität von Terray steht mir zur Verfügung. Mit der DGX Cloud und der Base Command-Plattform kann ich mit nur einem Knopfdruck von einem einzelnen Knoten zu einem 32-GPU-Cluster wechseln“, fügte Parkhill hinzu. „Die DGX Cloud gibt uns das Abstraktionsniveau, das unsere Entwickler brauchen, damit sie sich auf Innovation statt auf Infrastruktur konzentrieren können.“

Terray verwendet einen hybriden Lösungsansatz, bei dem die Modelle des Unternehmens auf der DGX Cloud trainiert und entwickelt und die Bereitstellung und Ausführung der Inferenz auf dem lokalen Cluster mit NVIDIA RTX™ A6000 GPUs erfolgt. Wenn die Workloads steigen, bietet DGX Cloud Elastizität und Liquidität von Ressourcen.

„Die KI-Experten von NVIDIA waren der Schlüssel zu unserem Erfolg“, so Williams. „Wir haben unsere Protokolle von einem Experten untersuchen lassen, um einen reibungslosen Ablauf zu gewährleisten und mögliche Fehler zu erkennen. Durch einfache Optimierungen in PyTorch und CUDA®, an die wir noch nicht gedacht hatten, konnten sie die Effizienz unserer Workloads erheblich verbessern. Darüber hinaus halfen sie bei der Entwicklung von Skripten, die wertvolle Einblicke in Telemetriedaten lieferten, sodass wir die Speicheraktivität überwachen und die Leistung verbessern konnten. Mithilfe der KI-Experten von NVIDIA konnten wir unseren Fokus von der Optimierung des Prozesses auf die Durchführung von Experimenten zu verlagern, da es sich hier in erster Linie um ein F&E-Projekt handelt.“

„Um Trainingsaufträgen einzurichten, mussten wir zuerst den Code manuell auf Remote-Geräte pushen und die Synchronisierung gewährleisten – jetzt drücken wir einfach aus ‚Ausführen‘ auf der DGX Cloud.“

Edward Williams
Machine Learning Engineer, Terray Therapeutics

„Als Datenwissenschaftler bin ich nicht mehr nur auf eine kleine GPU-Workstation angewiesen, sondern mit steht die gesamte Cloud-Kapazität von Terray zur Verfügung. Mit DGX Cloud mit Base Command Platform kann ich einfach von einem einzelnen Knoten zu einem 32-GPU-Cluster übergehen.“

John Parkhill,
Direktor für Maschinelles Lernen, Terray Therapeutics

Experimentier- und Modelloptimierung mit 4-facher Ressourcenauslastung

Die Forschung mit kleinen Molekülen ist ein iterativer Prozess, der den kontinuierlichen Zyklus des Entwurfs, der Herstellung, des Testens, der Analyse und der Verfeinerung von Verbindungen umfasst, um die gewünschten Eigenschaften zu erreichen. Parkhill sagte: „Die einfache Nutzung von DGX Cloud bot eine außergewöhnliche Leistung und half uns, die Hyperparameter für COATI schneller zu evaluieren, was uns eine 4-mal höhere Auslastung im Vergleich zu alternativen Cloud-Services ermöglichte. Früher dauerte es eine Woche, um ein Modell zu trainieren, und wir schafften es an einem Tag.“

Parkhill fügte hinzu: „Wir können jetzt den riesigen chemischen Raum problemlos erkunden, um seltene Moleküle mit gewünschten Eigenschaften wie Selektivität und Potenz zu finden. Wir können das Modell auch anweisen, Kandidaten mit spezifischen Eigenschaften für die Analyse zu generieren oder völlig neue Moleküle zu entdecken, die bekannten ähneln, aber über optimalere Eigenschaften verfügen.“

Die Suche nach neuen Molekülen, die synthetisierten ähneln, ist wichtig, da sie als wertvoller Ausgangspunkt dient, um das vorhandene Wissen und das Verständnis für chemische Eigenschaften zu nutzen. So können die Forscher Verhaltensweisen, einschließlich Sicherheit und Wirksamkeit, effektiver vorhersagen und letztendlich den Medikamentenentwicklungsprozess beschleunigen.

„Unser Modell wird mit der Zeit besser, da wir immer mehr Moleküle im Labor generieren und iterative Schulungen auf DGX Cloud durchführen.“

„Die Benutzerfreundlichkeit und die außergewöhnliche Leistung von DGX Cloud haben uns geholfen, schneller Zielmoleküle zu finden, was uns eine 4-mal höhere Auslastung im Vergleich zu alternativen Cloud-Services ermöglicht.“

John Parkhill,
Direktor für Maschinelles Lernen, Terray Therapeutics

Blick nach vorn

Das aufstrebende Gebiet des generativen molekularen Designs und der Optimierung hat das Potenzial, die klinische Erfolgsrate der Entwicklung kleiner Moleküle erheblich zu verbessern. Terrays Pionierarbeit ebnet den Weg für die branchenweite Einführung ihres bahnbrechenden Modells.

„Der Schlüssel zu wirkungsvoller generativer KI sind präzise Daten in großem Maßstab, die schnell iteriert werden können, und das machen wir bei Terray“, sagte Narbe Mardirossian, Technologievorstand bei Terray. „Dank DGX Cloud konnten wir eine molekulare Sprache entwickeln, die eine effiziente, begrenzte, generative Optimierung von Molekülen für Programme in der Hit-to-Lead- und Lead-Optimierung ermöglicht. Wir freuen uns darauf, mit diesen Tools eine Vielzahl neuer Therapien für Patienten anbieten zu können.“

„Es hat früher eine Woche gedauert, um ein Modell zu trainieren, und jetzt erledigen wir das an einem Tag.“

John Parkhill,
Direktor für Maschinelles Lernen, Terray Therapeutics

Ergebnisse

  • Verbesserte Infrastrukturnutzung um mehr als das Vierfache im Vergleich zu alternativen Cloud-Services
  • Verkürzte Schulungszeit von einer Woche auf einen Tag
  • Weniger als einen Tag für das Onboarding auf die DGX Cloud
  • Kann mehrere COATI-Varianten parallel trainieren, um die optimale vortrainierte Einbettung zu finden

Der schnellste Weg zum Einstieg in die DGX-Plattform ist NVIDIA DGX Cloud, eine serverlose AI-Training-as-a-Service-Plattform, die speziell für Unternehmen zur Entwicklung generativer KI entwickelt wurde.