Un modello di molecola 3D.

Sanità e scienze della vita

Migliorare la scoperta e lo sviluppo di biofarmaci con l'IA generativa

Obiettivo

Utilizzando NVIDIA DGX™ Cloud e BioNeMo™, Amgen addestra i grandi modelli di linguaggio (LLM) sui dati proprietari per aiutare a prevedere le proprietà delle proteine e sviluppare biofarmaci con proprietà migliorate.

Cliente

Informazioni su Amgen

Scenario di utilizzo

IA generativa / LLM

Prodotti

Servizio NVIDIA BioNeMo
NVIDIA AI Enterprise
NVIDIA DGX

Formazione LLM per progettare e prevedere le proprietà delle proteine, accelerando la scoperta dei farmaci

In quanto una delle aziende leader nel settore delle biotecnologie, Amgen è nota per essere un pioniere nel campo dei biofarmaci. Dai farmaci che combattono l’artrite grave, l’anemia e altre malattie infiammatorie ai trattamenti per il cancro, Amgen ha sviluppato alcuni dei prodotti farmaceutici più venduti che hanno migliorato centinaia di migliaia di vite.

Una delle aree di ricerca e sviluppo di Amgen è rappresentata dai biofarmaci, molecole complesse che vengono prodotte e estratte da cellule viventi. La complessità dei biofarmaci permette loro di essere progettati per legarsi specificamente a un agente che causa la malattia e ridurre i suoi effetti. Per accelerare il ritmo della scoperta di farmaci, Amgen ha cercato di utilizzare l'intelligenza artificiale e l'apprendimento automatico per progettare queste molecole grandi e complesse.

Amgen headquarters.
Image courtesy of Amgen.

Riepilogo

  • La scoperta di biofarmaci tradizionali è molto costosa e comporta l'identificazione dell'obiettivo da decine di migliaia di molecole, la selezione di candidati da milioni di molecole e rigorosi test clinici.
  • Per accelerare la scoperta di biofarmaci, Amgen sta utilizzando modelli generativi di intelligenza artificiale per proporre progetti per molecole candidate e modelli predittivi per valutare i progetti.
  • Hanno sfruttato NVIDIA DGX Cloud e NVIDIA BioNeMo per un rapido addestramento e la messa a punto delle LLM delle proteine e NVIDIA RAPIDS per un'analisi post-addestramento fino a 100 volte più veloce.
  • BioNeMo su DGX Cloud è una soluzione chiavi in mano che ha permesso ad Amgen di iniziare e funzionare rapidamente, passando dal login iniziale a modelli di addestramento di grandi dimensioni in pochi giorni.

Costruzione e manutenzione di robuste infrastrutture IA per LLM biomolecolari

Il processo tradizionale di scoperta di nuove terapie comprende quattro fasi: selezione dell'obiettivo, in cui vengono identificati i potenziali bersagli dei farmaci; scoperta e ottimizzazione dei lead, in cui vengono identificate e ottimizzate le potenziali terapie; selezione dei candidati, in cui vengono scelte le molecole per essere ulteriormente sviluppate; e sviluppo clinico, in cui vengono testate la sicurezza e l'efficacia del farmaco. Questo processo è lungo e costoso: si potrebbe iniziare da migliaia a milioni di anticorpi unici o altre proteine, selezionarne centinaia per lo screening ad alto rendimento e da lì finire con un piccolo set di molecole di piombo. Amgen voleva sviluppare strumenti di IA e machine learning per accelerare lo screening e l'ottimizzazione.

Grandi modelli linguistici e IA generativa possono analizzare i dati e prevedere i risultati, consentendo ai ricercatori di Amgen di sviluppare nuovi biofarmaci con maggiore velocità e precisione. I LLM utilizzano i dati di vasti database di sequenze proteiche per creare una versione virtuale di un biofarmaco, che può quindi essere utilizzato per generare ipotesi sugli effetti di esso, le sue proprietà e i suoi potenziali effetti collaterali. Tuttavia, alcune sottoclassi di biofarmaci sono nuove in natura, specialmente molecole multi-specifiche e ci sono poche informazioni, rendendo difficili le previsioni in silicio. "Siccome i modelli disponibili sono limitati, abbiamo dovuto addestrare modelli personalizzabili basati sulle nostre informazioni", ha affermato Christopher Langmead, direttore della scoperta di biologici digitali a Amgen. "Pre-addestrare questi modelli per poi fare inferenza su scala richiede una computazione potente e software e hardware altamente ottimizzati."

Soluzione

NVIDIA SDGX Cloud

  • Istanze DGX Cloud, ciascuna con otto GPU NVIDIA A100 da 80 GB Tensor Core Piattaforma
  • NVIDIA Base Command™ per la pianificazione e l'orchestrazione dei processi
  • NVIDIA AI Enterprise, incluso RAPIDS per la lettura di input di grandi dimensioni e il clustering dei risultati

NVIDIA BioNeMo

  • Addestramento e inferenza di modelli biomolecolari all'avanguardia con un focus sulle proteine

Risultati

  • Formazione più rapida dei LLM proteici rispetto alle opzioni open source
  • Previsioni più rapide della struttura delle proteine: in 20 secondi per struttura
  • Meno di quattro settimane dall'inserimento su DGX Cloud al primo modello LLM proteico pre-addestrato

Risorse di supercalcolo on-demand e modelli generativi di intelligenza artificiale personalizzabili

Amgen ha sviluppato un flusso di lavoro di biologia generativa utilizzando l'intelligenza artificiale e l'apprendimento automatico che inizia con un insieme di specifiche che un candidato deve soddisfare. Successivamente, i modelli generativi di intelligenza artificiale suggeriscono nuovi progetti e i modelli predittivi valutano e classificano questi progetti. Questo viene fatto in modo iterativo fino a quando vengono trovate molecole che soddisfano le specifiche, che includono criteri rilevanti per efficacia, sicurezza e fabbricabilità. Valutare altrettanti progetti in silicio con questi modelli generativi riduce il carico sui laboratori umidi.

"Per sviluppare modelli che possono aiutarci a generare buoni prodotti biologici, avevamo bisogno della nostra piattaforma per supportare un rapido pre-addestramento e messa a punto in una serie di esperimenti", afferma Langmead. "Avevamo bisogno della flessibilità per sperimentare con dati e scala diversi. Utilizzando NVIDIA BioNeMo su DGX Cloud, siamo stati in grado di eseguire facilmente l'addestramento distribuito di modelli complessi in un ambiente multi-GPU. Le capacità e le prestazioni di NVIDIA BioNeMo e DGX Cloud erano esattamente ciò di cui avevamo bisogno e disponibili per noi quando ne avevamo bisogno."

"Uno dei vantaggi principali di DGX Cloud era la procedura di onboarding straordinariamente rapida. Siamo stati in grado di passare dal nostro login iniziale al pre-addestramento di modelli di grandi dimensioni in pochi giorni. BioNeMo su DGX Cloud è una soluzione chiavi in mano: i nostri utenti devono solo fornire i dati e specificare il modello regolando alcuni file di configurazione e BioNeMo gestisce tutti gli altri aspetti del processo."

Amgen ha addestrato la proteina LLM ESM-1nv in BioNeMo su DGX Cloud con anticorpi proprietari di Amgen. Ciò ha portato a cinque LLM addestrati specifici per anticorpi. BioNeMo ha modelli di diffusione e linguaggio biomolecolari all'avanguardia per l'addestramento e l'inferenza nei flussi di lavoro di scoperta di farmaci in fase iniziale. Ciò include modelli per la generazione di proteine e piccole molecole, la comprensione delle proprietà delle proteine e delle piccole molecole, la previsione delle strutture di legame di piccole molecole legate alle proteine e la previsione della struttura 3D delle proteine.

"La facilità di formazione multi-nodo e la possibilità di utilizzare batch di dimensioni più grandi all'interno di DGX Cloud ci hanno permesso di raggiungere i nostri obiettivi di tre mesi in sole quattro settimane."

Chris James Langmead,
Direttore della Digital Biologics Discovery, Amgen

Formazione più veloce di LLM di proteine e analisi post-addestramento fino a 100 volte più veloce

Langmead ha commentato: "La facilità di addestramento multi-nodo e la possibilità di utilizzare batch di dimensioni più grandi all'interno di DGX Cloud ci hanno permesso di raggiungere i nostri obiettivi di tre mesi in sole quattro settimane. La formazione multi-nodo e multi-GPU è importante nel biofarmaco, perché può aiutare a velocizzare il processo di formazione e consentire l'addestramento di modelli più grandi con più dati. Questo porta a modelli e previsioni più accurate, che accelerano il processo di sviluppo del farmaco."

DGX Cloud è ottimizzato per l'addestramento multi-nodo, consentendo ad Amgen di sperimentare notevoli accelerazioni. "Abbiamo visto accelerazioni notevoli dovute all'addestramento distribuito e ai caricatori di dati ottimizzati utilizzando la piattaforma DGX rispetto a un ambiente a GPU singola."

Utilizzando la piattaforma di comando base NVIDIA all'interno di DGX Cloud, i ricercatori di Amgen potevano inviare tutti i lavori con facilità. Le funzionalità di monitoraggio e telemetria hanno garantito che tutti i lavori funzionassero senza intoppi ed efficientemente. "La piattaforma di comando base era molto intuitiva. Questa capacità di allineare le nostre risorse di calcolo senza preoccuparci della complessità dell'addestramento distribuito in un ambiente multi-GPU e multi-nodo consente al mio team di concentrarsi sul lavoro scientifico e di fornire modelli e strumenti a un ritmo più veloce di quanto sarebbe stato possibile in qualsiasi altro contesto", afferma Langmead.

BioNeMo include anche un'implementazione accelerata del modello OpenFold, una tecnica di modellazione biologica che utilizza un approccio basato sulla fisica per prevedere la struttura 3D delle proteine. La previsione delle strutture 3D delle proteine aiuta i ricercatori a ottenere informazioni sulla funzionalità della proteina e a sviluppare biofarmaci più efficaci e mirati che possono legarsi alla proteina bersaglio e migliorare i risultati della terapia. "Rispetto alla versione internalizzata dello stesso modello di Amgen, abbiamo visto accelerazioni da 20 a 30 volte per la creazione di allineamenti di sequenza multipli in BioNeMo. Separatamente, utilizzando un modello disponibile al pubblico per la previsione della struttura delle proteine, abbiamo visto accelerazioni drammatiche", afferma Langmead.

“Le potenti capacità di calcolo e multi-nodo di DGX Cloud hanno permesso ad Amgen di ottenere un addestramento più rapido delle LLM proteiche con BioNeMo e un’analisi post-addestramento fino a 100 volte più veloce con NVIDIA RAPIDS.”

Chris James Langmead,
Direttore della Digital Biologics Discovery, Amgen

"Con NVIDIA DGX Cloud e NVIDIA BioNeMo, i nostri ricercatori sono in grado di concentrarsi su una biologia più profonda invece di impostare un'infrastruttura IA. Le potenti capacità di calcolo e multi-nodo di DGX Cloud hanno consentito ad Amgen di ottenere un addestramento più rapido delle LLM delle proteine con BioNeMo e un'analisi post-addestramento fino a 100 volte più veloce con NVIDIA RAPIDS rispetto alle piattaforme alternative."

"La reattività degli esperti di IA di NVIDIA, che sono risorse tecniche che fanno in modo che i nostri codici vengano eseguiti in modo efficiente sulla loro piattaforma, è stata fondamentale. Invece di andare ai forum, abbiamo ottenuto risposte sulla nostra infrastruttura e strumenti in tempo reale. Per questo motivo, il mio team può concentrarsi sulla modellazione, non sull'ingegneria del software."

Guardando in avanti

Migliorare la scoperta e lo sviluppo di biofarmaci promette di fornire trattamenti più efficaci con una migliore fabbricabilità ed effetti collaterali ridotti o eliminati a costi inferiori. Per raggiungere questo obiettivo, Amgen sta cercando di espandere i carichi di lavoro utilizzando BioNeMo su DGX Cloud. Ciò include i modelli di linguaggio di proteine specifici per l'applicazione di pre-addestramento e i modelli di linguaggio di RNA e la distribuzione di questi modelli sulla piattaforma generativa della biologia di Amgen. "DGX Cloud e BioNeMo offrono le prestazioni e la scalabilità di cui abbiamo bisogno, consentendo una maggiore produttività e impatto. Sta già trasformando il nostro modo di lavorare, aumentando drasticamente la portata di ciò che può essere realizzato da un team di dimensioni simili", afferma Langmead.

Vuoi iniziare?

Per saperne di più sulle soluzioni NVIDIA per la sanità e le scienze biologiche, contattaci.