Sanità e scienze biologiche

Sviluppare modelli linguistici per anticorpi con NVIDIA BioNeMo

Obiettivo

Fornire nuovi farmaci ai pazienti il più rapidamente possibile sviluppando modelli linguistici per anticorpi con NVIDIA BioNeMo™, semplificando il flusso di lavoro per la ricerca farmacologica. Promuovere la costruzione di una piattaforma human-in-the-loop per la ricerca farmacologica che integra esseri umani, IA e robotica. Concentrati sulla ricerca sulla ricerca farmacologica senza pensare agli algoritmi e all'ottimizzazione dei parametri.

Cliente

Astellas Pharma Inc.

Caso d'uso

IA generativa / LLM

Prodotti

BioNeMo
DGX A100
DGX H100

Costruire una piattaforma umana-nel-ciclo per la ricerca farmacologica che integra esseri umani, IA e robotica

Astellas Pharma Inc., una delle principali aziende farmaceutiche giapponesi, ha sviluppato il proprio modello linguistico per anticorpi, astABpLM, utilizzando il framework di IA generativa di NVIDIA per la ricerca farmacologica, BioNeMo, per prevedere in modo efficiente le proprietà dei nuovi anticorpi nella ricerca farmacologica nell'ambito degli anticorpi. Allo stesso tempo, l'azienda utilizza l'IA generativa per generare diverse strutture 3D di composti nella ricerca farmacologica utilizzando composti chimici, ottenendo una velocità oltre 50 volte superiore rispetto al metodo convenzionale. Per l'ambiente di calcolo, utilizza un DGX™ H100 presso l'hub di innovazione per la ricerca farmacologica di Tokyo-1 fornito da Xeureka, una sussidiaria di Mitsui & Co.

Astellas Pharma Inc.

Vicedirettore Generale
Modality Informatics
Kenichi Mori

Astellas Pharma Inc.

Concentrarsi sulla ricerca sulla ricerca farmacologica senza pensare agli algoritmi e all'ottimizzazione dei parametri

La sfida

Per semplificare il processo della ricerca farmacologica, che può richiedere dai 10 ai 20 anni, Astellas sta lavorando per digitalizzare l'intera catena del valore della ricerca farmacologica. Soprattutto nella fase di ricerca, l'azienda sta lavorando per creare una piattaforma umana-nel-ciclo per la ricerca farmacologica (ambiente di ricerca) che integra esseri umani, IA e robot. “L'obiettivo della digitalizzazione è quello di fornire farmaci nuovi e innovativi ai pazienti il più rapidamente possibile. È di questo che si tratta", spiega Kenichi Mori, Vicedirettore Generale di Modality Informatics, che promuove la trasformazione digitale della ricerca.

Tra le varie modalità di ricerca farmacologica, quella degli anticorpi sfrutta il meccanismo degli anticorpi. Gli anticorpi, chiamati anche immunoglobuline, sono proteine che si legano ad antigeni specifici come cellule tumorali, batteri e virus per fermare la loro funzione.

Per sviluppare farmaci a base di anticorpi, è necessario misurare le proprietà di legame e fisiche dei nuovi anticorpi che potrebbero essere candidati come nuovi farmaci per gli antigeni e valutare se sono fattibili come farmaci. Le proprietà fisiche qui si riferiscono a proprietà come la stabilità strutturale, la solubilità, la viscosità e la coesione. Alcune proprietà fisiche richiedono tempo per essere misurate, quindi se possono essere previste prima della misurazione, il processo può essere abbreviato.

Natnael Hamda, Manager di Modality Informatics e ingegnere capo presso Astellas Pharma, si è concentrato sui modelli linguistici proteici (pLM) come mezzo per prevedere le proprietà fisiche degli anticorpi. Questo metodo modella una proteina composta da 20 aminoacidi per esprimerla in termini di linguaggio in 20 caratteri, utile per l'analisi strutturale e la previsione funzionale.

"Abbiamo pensato che, poiché gli anticorpi sono composti anche da proteine, si potrebbe applicare il pLM standard. Sebbene le funzionalità basate su pLM abbiano dimostrato una precisione migliore rispetto alle funzionalità bioinformatiche tradizionali nel prevedere le proprietà generali delle proteine, come la stabilità termica, il modello ha ottenuto prestazioni significativamente inferiori nel prevedere le proprietà specifiche degli anticorpi, sia in termini di precisione che di generalizzazione", ha dichiarato Hamda.

Le ragioni di ciò, ipotizza, sono le seguenti: "La differenza è che le proteine si sono evolute nel tempo in strutture complesse, mentre gli anticorpi si sono adattati agli antigeni bersaglio. Sappiamo anche che il principio di base delle proteine1 secondo cui "la struttura determina la funzione" potrebbe non essere vero in alcuni casi. Per questo motivo, riteniamo che il normale pLM non abbia funzionato per gli anticorpi."

^Si chiama dogma di Anfinsen, dal nome del dottor C. Anfinsen, il biochimico che lo ha proposto.

Soluzione

Per affrontare questo problema, Hamda ha deciso di sviluppare il suo modello linguistico specifico per gli anticorpi. Ha chiamato il modello "Astellas Antibody Pre-trained Language Model" (astABpLM).

Il database Observed Antibody Space (OAS) raccolto e fornito dall'Università di Oxford, nel Regno Unito, è stato utilizzato come insieme di dati sugli anticorpi per l'addestramento.2 Le dimensioni dei dati erano di 2,4 miliardi di sequenze, preprocessate utilizzando la suite RAPIDS™ di NVIDIA per la scienza dei dati per preparare il set di dati per l'addestramento.

Il modello utilizzato è stato ESM-1nv, ottimizzato da NVIDIA sulla base del modello linguistico ESM-1 per le proteine, sviluppato da Meta AI Labs. ESM-1nv viene fornito come parte di NVIDIA BioNeMo, una piattaforma di IA generativa per la scoperta di farmaci. "Era il momento giusto per iniziare ad accedere a BioNeMo, quindi ho deciso immediatamente di utilizzare ESM-1nv. È ottimizzato per le GPU NVIDIA e ha il supporto di NVIDIA, il che lo rende molto facile da usare", ha dichiarato Hamda.

Per l'addestramento, ha utilizzato un metodo unico in cui le catene pesanti (catene H) e le catene leggere (catene L) che compongono l'anticorpo vengono addestrate separatamente (vedi l'illustrazione). "Poiché le catene pesanti e le catene leggere sono biologicamente distinte, abbiamo pensato di massimizzare la ricchezza dei dati OAS addestrandoli separatamente", ha detto Hamda.

Un NVIDIA DGX A100 viene utilizzato come hardware. Il modello di catena pesante astABpLM_VH e il modello di catena leggera astABpLM_VL hanno completato l'addestramento in circa 65 e 37 ore, rispettivamente.

Oltre allo sviluppo del modello linguistico per anticorpi astABpLM descritto sopra, l'azienda utilizza l'IA generativa per generare una varietà di strutture 3D per composti a basso e medio peso molecolare, tra cui PROTACs (proteolysis targeting chimera), nell'ambito del suo flusso di lavoro di ricerca.

Ha sviluppato un flusso di lavoro unico per generare rapidamente strutture 3D di composti utilizzando un modello di diffusione torsionale che impara gli angoli diedrali dei gruppi atomici basato sul set di dati GEOM,3,4 che contiene le strutture di 37 milioni di composti diversi.

² OAS: https://opig.stats.ox.ac.uk/webapps/oas/

³ Diffusione torsionale: Jing et al. 2022, https://arxiv.org/pdf/2206.01729.pdf

⁴ GEOM: https://github.com/learningmatter-mit/geom

Risultati

Il modello linguistico specifico per anticorpi, astABpLM, è stato incorporato nei flussi di lavoro di previsione delle proprietà degli anticorpi esistenti e viene utilizzato per scoprire nuovi anticorpi che possono essere candidati per nuovi farmaci. "L'utilizzo di astABpLM ha certamente migliorato l'accuratezza delle nostre previsioni delle proprietà fisiche", afferma Mori. Hamda ha inoltre sottolineato il vantaggio dell'azienda di disporre di un proprio modello, che consente di gestire non solo l'embedding, ma anche la probabilità di ogni residuo di aminoacido, se necessario.

D'altra parte, il flusso di lavoro proprietario dell'azienda per lo screening conformazionale molecolare dei composti ha permesso un aumento della velocità da 50 a 60 volte rispetto ai metodi convenzionali. Spiegando i risultati, Hamda osserva: "Ora otteniamo risultati in soli 15 secondi, rispetto all'ambiente precedente, che richiedeva da diverse ore a un giorno".

Entrambi gli individui indicano l'ulteriore utilizzo di NVIDIA BioNeMo come la strada da percorrere. Hamda spiega, "Oltre all'ESM-1nv utilizzato per astABpLM, stiamo utilizzando i vari modelli e funzionalità offerte da NVIDIA BioNeMo, tra cui MegaMolBART per le piccole molecole". Mori ha aggiunto, "Penso che uno dei vantaggi di NVIDIA BioNeMo sia che possiamo concentrarci sulla nostra ricerca senza doverci preoccupare di ottimizzare algoritmi e parametri quando stiamo conducendo la ricerca farmacologica." Non vediamo l'ora di continuare ad aggiungere una varietà di modelli e funzionalità per supportare la diversità delle modalità."

Infine, Mori riassume la situazione come segue: "Un cambiamento di paradigma nella ricerca sulla scoperta di farmaci sta per avvenire a causa della convergenza degli ambienti di calcolo ad alte prestazioni e dell'IA generativa. Attraverso NVIDIA BioNeMo e Tokyo-1, continueremo ad accorciare la pipeline complessiva di scoperta farmacologica e, in definitiva, a portare nuovi farmaci innovativi ai pazienti il più rapidamente possibile."

Astellas è uno dei membri partecipanti di Tokyo-1,5, un hub di innovazione per la scoperta di farmaci lanciato da Xeureka, una sussidiaria di Mitsui & Co. L'idea è quella di migliorare l'efficienza della ricerca sulla scoperta di farmaci, utilizzando il nuovo NVIDIA DGX H100 ad alte prestazioni.

⁵ Tokyo-1: https://tokyo-1.ai/

“Un cambiamento di paradigma nella ricerca sulla scoperta di farmaci sta per verificarsi a causa della convergenza degli ambienti di calcolo ad alte prestazioni e dell’IA generativa. Attraverso NVIDIA BioNeMo e Tokyo-1, ci impegniamo ad accorciare la nostra pipeline di scoperta farmacologica e a portare nuovi farmaci innovativi ai pazienti il più rapidamente possibile."

Kenichi Mori
Astellas Pharma Inc.

Astellas Pharma Inc.

Responsabile di
Modality Informatics e
Ingegnere capo
Natnael Hamda

Panoramica dello sviluppo del modello linguistico proprietario per anticorpi astABpLM

Formazione indipendente delle catene VH e VL utilizzando l'ESM-1nv ottimizzato come architettura.
Il modello può essere addestrato utilizzando DGX Cloud (un nodo, otto GPU A100).

Fino a 65 ore per astABpLM_VH
Fino a 37 ore per astABpLM_VH
Inizialmente, solo il 10% dei dati era stato addestrato utilizzando l'infrastruttura esistente.

I set di dati delle catene pesanti (la parte rossa della Y) e delle catene leggere (la parte blu della Y) che formano gli anticorpi sono stati consegnati separatamente a ESM-1nv per l'addestramento.

Scaleway

Vuoi saperne di più?

Per saperne di più sulle soluzioni NVIDIA per la sanità e le scienze biologiche, contattaci.

Contattaci