Ein 3D-Molekülmodell.

Gesundheitswesen und Biowissenschaften

Verbesserung der Entdeckung und Entwicklung von Biologika durch generative KI

Ziel

Mithilfe von NVIDIA DGX™ Cloud und BioNeMo™ trainiert Amgen große Sprachmodelle (Large Language Models, LLMs) mit seinen proprietären Daten, um die Eigenschaften von Proteinen vorherzusagen und Biologika mit verbesserten Eigenschaften zu entwickeln.

Kunde

Amgen

Anwendungsfall

Generative KI/LLMs

Produkte

NVIDIA BioNeMo-Dienst
NVIDIA AI Enterprise
NVIDIA DGX

Ausbildung von LLMs für den Entwurf und die Vorhersage von Proteineigenschaften, um die Entdeckung von Medikamenten zu beschleunigen

Als eines der weltweit führenden Biotechnologieunternehmen ist Amgen als Pionier auf dem Gebiet der Biologika bekannt. Von Medikamenten gegen schwere Arthritis, Anämie und andere Entzündungskrankhiten bis hin zu Krebsbehandlungen hat Amgen einige der umsatzstärksten pharmazeutischen Produkte entwickelt, die Hunderttausende von Leben verbessert haben.

Einer der wichtigsten F&E-Schwerpunkte von Amgen sind Biologika, d. h. komplexe Moleküle, die in lebenden Zellen hergestellt und aus diesen extrahiert werden. Die Komplexität von Biologika ermöglicht es, sie so zu gestalten, dass sie spezifisch an einen krankheitsverursachenden Wirkstoff binden und dessen Auswirkungen verringern. Um die Entdeckung von Medikamenten zu beschleunigen, hat Amgen versucht, künstliche Intelligenz und maschinelles Lernen einzusetzen, um diese großen und komplexen Moleküle zu entwerfen.

Amgen headquarters.
Image courtesy of Amgen.

Zusammenfassung

  • Die herkömmliche Entdeckung von Biologika ist sehr kostspielig und erfordert die Identifizierung von Zielmolekülen aus Zehntausenden von Molekülen, die Auswahl von Kandidaten aus Millionen von Molekülen und strenge klinische Tests.
  • Um die Entdeckung von Biologika zu beschleunigen, setzt Amgen generative KI-Modelle ein, um Designs für Molekülkandidaten vorzuschlagen, und prädiktive Modelle, um Designs zu bewerten.
  • Das Unternehmen nutzte NVIDIA DGX Cloud und NVIDIA BioNeMo für das schnelle Training und die Feineinstellung von Protein-LLMs sowie NVIDIA RAPIDS für bis zu 100 Mal schnellere Analyse nach dem Training.
  • BioNeMo unter DGX Cloud ist eine schlüsselfertige Lösung, mit der Amgen schnell in Betrieb gehen konnte und in wenigen Tagen vom ersten Login bis zum Training großer Modelle fortschreiten konnte.

Aufbau und Wartung einer robusten KI-Infrastruktur für biomolekulare LLMs

Das herkömmliche Verfahren zur Entdeckung neuer Therapeutika umfasst vier Phasen: die Auswahl der Zielmoleküle (Targets), bei der potenzielle Zielmoleküle für Medikamente identifiziert werden; die Entdeckung und Optimierung von Leitstrukturen (Lead Discovery), bei der potenzielle Therapeutika identifiziert und optimiert werden; die Auswahl von Kandidaten (Candidates), bei der Moleküle für die weitere Entwicklung ausgewählt werden; und die klinische Entwicklung, bei der die Sicherheit und Wirksamkeit des Medikaments getestet wird. Dieser Prozess ist langwierig und kostspielig: Man könnte von Tausenden bis Millionen einzigartiger Antikörper oder anderer Proteine ausgehen, Hunderte für ein Hochdurchsatz-Screening auswählen und dann mit einer kleinen Gruppe von Leitmolekülen enden. Amgen wollte KI und maschinelle Lernwerkzeuge entwickeln, um das Screening und die Optimierung zu beschleunigen. 

Große Sprachmodelle und generative KI können Daten analysieren und Ergebnisse vorhersagen, so dass die Forscher von Amgen neue Biologika schneller und genauer entwickeln können. LLMs verwenden Daten aus riesigen Proteinsequenzdatenbanken, um eine virtuelle Version eines Biologikums zu erstellen, die dann verwendet werden kann, um Hypothesen über die Auswirkungen des Biologikums, seine Eigenschaften und seine potenziellen Nebenwirkungen zu generieren. Einige Unterklassen von Biologika sind jedoch neu in der Natur, insbesondere multispezifische Moleküle, und die Datenlage ist dürftig, so dass es schwierig sein kann, in silico Vorhersagen über sie zu treffen. "Da öffentlich Verfügung stehen, mussten wir benutzerdefinierte Modelle anhand unserer eigenen Daten vortrainieren", sagt Christopher Langmead, Director of Digital Biologics Discovery bei Amgen. „Das Vortraining solcher Modelle und die anschließende Durchführung von Inferenzen in großem Maßstab erfordert eine leistungsstark Rechenleistung und eine hoch optimierte Software- und Hardwareplattform.“

Lösung

NVIDIA DGX Cloud

  • DGX Cloud-Instanzen mit jeweils acht NVIDIA A100 80GB Tensor Core GPUs
  • NVIDIA Base Command™ Plattform für Job Scheduling und Orchestrierung
  • NVIDIA AI Enterprise einschließlich RAPIDS für das Lesen großer Inputs und Clustering-Ergebnisse

NVIDIA BioNeMo

  • Training und Inferencing moderner biomolekularer Modelle mit Schwerpunkt auf Proteinen

Ergebnisse

  • Schnelleres Training von Protein-LLMs im Vergleich zu Open-Source-Optionen
  • Schnellere Proteinstrukturvorhersagen – bis zu 20 Sekunden pro Struktur
  • Weniger als vier Wochen vom Onboarding auf der DGX Cloud bis zum ersten vortrainierten Protein-LLM-Modell

Supercomputing-Ressourcen auf Abruf und anpassbare GenAI-Modelle

Amgen entwickelte einen generativen Biologie-Workflow unter Verwendung von KI und maschinellem Lernen, der mit einer Reihe von Spezifikationen beginnt, die ein Kandidat erfüllen muss. Anschließend schlagen generative KI-Modelle neue Designs vor, und prädiktive Modelle bewerten und ordnen diese Designs ein. Dies geschieht iterativ, bis Moleküle gefunden sind, die die Spezifikationen erfüllen, zu denen auch Kriterien für Wirksamkeit, Sicherheit und Herstellbarkeit gehören. Die Evaluierung so vieler Designs in silico mit diesen generativen Modellen reduziert die Belastung der Nasslabors.

“Um Modelle zu entwickeln, die uns bei der Entwicklung guter Biologika helfen können, musste unsere Plattform ein schnelles Vortraining und eine Feinabstimmung über eine Reihe von Experimenten hinweg unterstützen“, sagt Langmead. „Wir brauchten die Flexibilität, um mit unterschiedlichen Daten und Größenordnungen zu experimentieren. Mit NVIDIA BioNeMo auf DGX Cloud konnten wir problemlos ein verteiltes Training komplexer Modelle in einer Multi-GPU-Umgebung durchführen. Die Fähigkeiten und die Leistung von NVIDIA BioNeMo und DGX Cloud waren genau das, was wir brauchten und standen uns zur Verfügung, als wir sie brauchten.”

„Einer der Hauptvorteile von DGX Cloud war der bemerkenswert schnelle Onboarding-Prozess. Wir waren in der Lage, vom ersten Login bis zum Vortraining großer Modelle in nur wenigen Tagen voranzukommen. BioNeMo auf DGX Cloud ist eine schlüsselfertige Lösung – unsere Benutzer müssen nur Daten bereitstellen und das Modell durch Anpassung einiger Konfigurationsdateien spezifizieren, und BioNeMo übernimmt alle anderen Aspekte des Prozesses.”

Amgen trainierte das Protein-LLM ESM-1nv in BioNeMo auf der DGX Cloud mit proprietären Antikörpern von Amgen. Dies führte zu fünf trainierten antikörperspezifischen LLMs. BioNeMo verfügt über hochmoderne biomolekulare Großsprachen- und Diffusionsmodelle für das Training und die Inferenz in Workflows der frühen Phase der Arzneimittelentdeckung. Dazu gehören Modelle zur Generierung von Proteinen und kleinen Molekülen, zum Verständnis der Eigenschaften von Proteinen und kleinen Molekülen, zur Vorhersage der Bindungsstrukturen von an Proteine gebundenen kleinen Molekülen und zur Vorhersage der 3D-Struktur von Proteinen.

„Dank des einfachen Muti-Node- Trainings und der Möglichkeit, innerhalb von DGX Cloud größere Batchgrößen zu verwenden, konnten wir unsere dreimonatigen Ziele in nur vier Wochen erreichen.“

Chris James Langmead,
Director of Digital Biologics Discovery, Amgen

Schnelleres Training von Protein-LLMs und bis zu 100 Mal schnellere Analyse nach dem Training

Langmead kommentierte: „Dank des einfachen Multi-Node-Trainings und der Möglichkeit, größere Batchgrößen innerhalb der DGX Cloud zu verwenden, konnten wir unsere Dreimonatsziele in nur vier Wochen erreichen. Multi-Node- und Multi-GPU-Training sind in der Biologie wichtig, da sie dazu beitragen können, den Trainingsprozess zu beschleunigen und das Training größerer Modelle mit mehr Daten zu ermöglichen. Dies führt zu genaueren Modellen und Vorhersagen, die den Prozess der Arzneimittelentwicklung beschleunigen.”

DGX Cloud ist für Multi-Node-Training optimiert, wodurch Amgen bemerkenswerte Geschwindigkeitssteigerungen erzielen konnte. „Wir haben durch verteiltes Training und optimierte Datenlader mit der DGX-Plattform im Vergleich zu einer Einzel-GPU-Umgebung dramatische Geschwindigkeitssteigerungen erzielt.

Verwendung der NVIDIA Base Command-Plattform Innerhalb der DGX Cloud konnten die Forscher von Amgen alle Aufträge problemlos übermitteln. Überwachungs- und Telemetriefunktionen sorgten für einen reibungslosen und effizienten Ablauf aller Aufträge. „Die Base Command-Plattform war sehr intuitiv. Die Möglichkeit, unsere Rechenressourcen aufeinander abzustimmen, ohne sich um die Feinheiten des verteilten Trainings in einer Multi-GPU- und Multi-Node-Umgebung kümmern zu müssen, erlaubt es meinem Team, sich auf die wissenschaftliche Arbeit zu konzentrieren und Modelle und Tools schneller bereitzustellen, als es in einer anderen Umgebung möglich gewesen wäre“, sagt Langmead.

BioNeMo enthält auch eine beschleunigte Implementierung des OpenFold-Modells, einer biologischen Modellierungstechnik, die einen physikalisch basierten Ansatz zur Vorhersage der 3D-Struktur von Proteinen verwendet. Die Vorhersage von 3D-Strukturen von Proteinen hilft Forschern, Einblicke in die Funktionalität des Proteins zu gewinnen und wirksamere und gezieltere Biologika zu entwickeln, die an das Zielprotein binden und die therapeutischen Ergebnisse verbessern können. „Im Vergleich zu Amgens eigener, internalisierter Version desselben Modells konnten wir in BioNeMo eine 20- bis 30-fache Beschleunigung bei der Erstellung multipler Sequenzabgleiche feststellen. Bei der Verwendung eines öffentlich zugänglichen Modells für die Vorhersage von Proteinstrukturen konnten wir dramatische Geschwindigkeitssteigerungen feststellen“, so Langmead.

„Die leistungsstarken Rechen- und Multi-Node-Funktionen der DGX Cloud haben Amgen ein schnelleres Training von Protein-LLMs mit BioNeMo und eine bis zu 100 Mal schnellere Analyse nach dem Training mit NVIDIA RAPIDS ermöglicht.“

Chris James Langmead,
Director of Digital Biologics Discovery, Amgen

„Mit NVIDIA DGX Cloud und NVIDIA BioNeMo können sich unsere Forscher auf die biologischen Grundlagen konzentrieren, anstatt eine KI-Infrastruktur aufzubauen. Die leistungsstarken Rechen- und Multi-Node-Funktionen der DGX Cloud haben Amgen ein schnelleres Training von Protein-LLMs mit BioNeMo und eine bis zu 100 Mal schnellere Analyse nach dem Training mit NVIDIA RAPIDS im Vergleich zu alternativen Plattformen ermöglicht.” 

Die Reaktionsschnelligkeit der KI-Experten von NVIDIA, die technische Ressourcen darstellen, um unsere Codes effizient auf ihrer Plattform zum Laufen zu bringen, war entscheidend. Anstatt in Foren zu diskutieren, erhielten wir in Echtzeit Antworten zu unserer Infrastruktur und unseren Werkzeugen. Dadurch kann sich mein Team auf die Modellierung und nicht auf die Softwareentwicklung konzentrieren."

Blick nach vorn

Die Verbesserung der Entdeckung und Entwicklung von Biologika verspricht wirksamere Behandlungen mit verbesserter Herstellbarkeit und reduzierten oder eliminierten Nebenwirkungen zu geringeren Kosten. Um dies zu erreichen, möchte Amgen die Arbeitslasten mit BioNeMo unter DGX Cloud erweitern. Dazu gehört das Vortraining anwendungsspezifischer Protein-Sprachmodelle und RNA-Sprachmodelle und der Einsatz dieser Modelle auf der generativen Biologieplattform von Amgen. „DGX Cloud und BioNeMo bieten die Leistung und Skalierbarkeit, die wir brauchen, und ermöglichen eine höhere Produktivität und Wirkung. Dies verändert bereits unsere Arbeitsweise, indem es den Umfang dessen, was ein Team unserer Größe erreichen kann, drastisch erhöht", sagt Langmead.

Sind Sie bereit?

Wenn Sie mehr über NVIDIA-Lösungen für die Gesundheits- und Biowissenschaften erfahren möchten, kontaktieren Sie uns.