Sanità e bioscienze

Un nuovo linguaggio molecolare per l'IA generativa nella scoperta di farmaci a piccole molecole

Obiettivo

Utilizzando i suoi enormi volumi di dati sperimentali precisi, Terray Therapeutics sfrutta NVIDIA DGX™ Cloud per addestrare i modelli di base per la chimica e l'IA generativa per progettare piccole molecole.

Cliente

Terray Therapeutics

Scenario di utilizzo

IA generativa

Prodotti

NVIDIA Base Command Platform
NVIDIA DGX Cloud
NVIDIA AI Enterprise

Lo spazio dei composti chimici è potenzialmente infinito, con oltre 1060(o novedecilioni) possibili molecole simili a farmaci. L'obiettivo della scoperta di farmaci a base di piccole molecole è esplorare questo vasto spazio chimico alla ricerca di poche molecole che soddisfino un problema di ottimizzazione multi-parametrica. I programmi tipici di scoperta di farmaci sono altamente inefficienti e sostanzialmente limitati, in quanto possono esplorare solo poche decine o poche centinaia di composti alla settimana.

L'obiettivo di Terray Therapeutics è cambiare il modo in cui vengono scoperti e sviluppati i farmaci a base di piccole molecole. La piattaforma dell'azienda fonde in modo unico sperimentazione e calcolo per mantenere la promessa dell'IA generativa per la scoperta di farmaci a base di piccole molecole: trovare soluzioni alle sfide terapeutiche più complesse. Terray ritiene che i dati di alta qualità e in scala siano la risposta per sbloccare l'IA generativa per le piccole molecole, e tutto l'operato dell'azienda è basato su un approccio iterativo, che produce enormi quantità di dati precisi e costruiti ad hoc che consentono l'ottimizzazione generativa delle piccole molecole. Con la stessa enfasi sulle nuove scienze di laboratorio e sull'IA, Terray migliora la salute umana trasformando la velocità, i costi e il tasso di successo dello sviluppo di farmaci a base di piccole molecole.

Terray Therapeutics

Image courtesy of Terray Therapeutics

Scalare lo sviluppo del modello per sfruttare miliardi di punti dati

La piattaforma Terray misura ogni giorno centinaia di milioni di interazioni tra piccole molecole e bersagli biologici, con un database in crescita di 50 miliardi di misure biofisiche sperimentali. Questa precisione consente di trovare nuove soluzioni, di effettuare uno screening parallelo dei bersagli e di effettuare rapidamente un hit to lead con milioni di molecole.

Il primo passo per utilizzare l'IA generativa nella scoperta di farmaci è disporre di grandi quantità di dati sperimentali precisi, tra cui molti punti di partenza promettenti per la progettazione di farmaci. Altrettanto importante è anche la capacità di calcolare su questi dati per progettare molecole utilizzabili. Per tradurre il linguaggio delle molecole con quello del calcolo (e viceversa), Terray ha sviluppato COATI, un modello di codificatore-decodificatore multimodale per lo spazio chimico. Il modello converte le strutture chimiche in rappresentazioni numeriche utili per elaborare i dati in modo più efficiente con l'IA. La rappresentazione numerica di una molecola può essere utilizzata come input per "decodificare", o generare, molecole con le proprietà desiderate, permettendo la progettazione molecolare generativa.

All'inizio dello sviluppo di COATI, Terray utilizzava un mix di sistemi, tra cui server basati su GPU on-premise e servizi cloud tradizionali. Inizialmente, questa infrastruttura era funzionale, fino a quando non hanno scalato i loro modelli. Man mano che i modelli sono diventati più grandi e più complessi, il provisioning e la configurazione delle sessioni di addestramento distribuite sono diventati impegnativi.

"Impiegavo ore per impostare le sessioni di addestramento ed era molto noioso", dichiara Edward Williams, Machine Learning Engineer di Terray. "Per l'addestramento distribuito utilizziamo torchrun. Man mano che aumentavamo i nostri modelli, diventava sempre più difficile allocare le risorse e garantire che il codice di addestramento fosse sincronizzato su tutti i nodi. Tracciare e gestire i guasti era altrettanto noioso: se qualcosa non funzionava, lo scoprivo a posteriori anziché immediatamente. Il tempo necessario per impostare l'addestramento, il processo manuale di propagazione delle modifiche tra i nodi e l'impossibilità di sapere se posso ottenere un nodo aggiuntivo su cui eseguire i miei esperimenti, stavano ostacolando la sperimentazione e la capacità del nostro team di scalare i nostri sforzi di ricerca".

  • La scoperta di farmaci a piccole molecole comporta l'esplorazione di uno spazio chimico che è funzionalmente infinito, con approcci tipici in grado di esplorare solo da poche dozzine a poche centinaia di composti alla settimana.
  • Terray Therapeutics è pioniere dell'IA generativa per la scoperta di farmaci a piccole molecole, guidata da dati scalabili di alta qualità e da una miscela di sperimentazione e calcolo.
  • Terray ha sviluppato il COATI, un modello di base per la chimica pre-addestrato su un set di dati di centinaia di milioni di piccole molecole. COATI traduce le molecole in rappresentazioni matematiche, consentendo all’IA generativa di progettare nuove molecole ottimizzate.
  • NVIDIA DGX Cloud ha migliorato in modo significativo il processo di sviluppo COATI, riducendo l'addestramento del modello da una settimana a un solo giorno e consentendo una sperimentazione più efficiente con GPU dedicate e scalabilità delle risorse on demand.
  • Utilizzando la piattaforma NVIDIA Base Command™, Terray ha migliorato di 4 volte l'utilizzo dell'infrastruttura grazie alla facilità di configurazione dei carichi di lavoro e all'ottimizzazione dei modelli.

Image courtesy of Terray Therapeutics

NVIDIA DGX Cloud: piattaforma di training multinodo dedicato per l'IA generativa

"Dato che volevamo migliorare continuamente la nostra rappresentazione invertibile dello spazio chimico, avevamo bisogno di una piattaforma che consentisse una sperimentazione rapida e una gestione semplice", dichiara John Parkhill, Direttore del reparto di Machine Learning di Terray. "DGX Cloud ci ha offerto una soluzione che funzionava perfettamente con la facilità e la semplicità del cloud. La sua rete ad alta velocità, costruita appositamente per l'addestramento multi-nodo, era di fondamentale importanza per le nostre esigenze. Trattandosi di dataset di terabyte o più grandi, abbiamo bisogno di risorse computazionali significative per addestrare efficacemente i nostri modelli".

"Inoltre, la capacità di condurre rapidamente esperimenti per tentativi ed errori è estremamente preziosa nella nostra ricerca sullo sviluppo dei modelli, poiché l'identificazione degli iper-parametri più efficaci è spesso un compito impegnativo. L'esecuzione rapida dei lavori su DGX Cloud ci ha permesso di identificare rapidamente gli errori e di apportare le necessarie modifiche ai modelli. Ad esempio, ho potuto eseguire numerosi studi di ablazione, come la disabilitazione delle funzioni del modello, per stabilire, ad esempio, se l'alterazione degli elementi del tokenizer del trasformatore sia efficace o meno", dichiara Williams.

"Il nostro processo di impostazione dei lavori di addestramento è passato dalla scomodità di inserire manualmente il codice nelle macchine remote e garantire la sincronizzazione alla semplicità di premere "Esegui" su DGX Cloud. Non abbiamo nemmeno dovuto modificare molto il nostro codice esistente. Con la piattaforma Base Command, la gestione dei lavori di addestramento multi-nodo è stata essenzialmente automatizzata. Questo ci ha permesso di scalare in un modo che sarebbe stato impossibile".

La disponibilità di un'allocazione fissa di nodi su DGX Cloud ha inoltre consentito di ottenere una maggiore efficienza. "Chiedere continuamente istanze di GPU ai servizi cloud tradizionali che sembrano non essere in grado di renderle disponibili è un'esperienza davvero spiacevole. Se ho bisogno di un nuovo nodo per un esperimento a cui sto lavorando, non so se e quando potrò ottenerlo. Con DGX Cloud, non devo preoccuparmi di questo". afferma Williams.

"In qualità di data scientist, il mio limite non è più una workstation con una piccola GPU, ma l'intera capacità del cloud di Terray. DGX Cloud con piattaforma Base Command mi permette di passare da un singolo nodo a un cluster di 32 GPU con la semplicità di un pulsante", ha aggiunto Parkhill. DGX Cloud ci offre il livello di astrazione di cui hanno bisogno i nostri sviluppatori, che possono così concentrarsi sull'innovazione anziché sull'infrastruttura".

Terray sfrutta un approccio ibrido, in cui addestra e costruisce i propri modelli su DGX Cloud e distribuisce ed esegue l'inferenza sul proprio cluster on-premise con GPU NVIDIA RTX™ A6000. Quando i carichi di lavoro aumentano, DGX Cloud offre elasticità e fluidità delle risorse.

"Gli esperti di IA di NVIDIA sono stati essenziali per il nostro successo” dichiara Williams. "Avevamo un esperto dedicato che ispezionava i nostri log per assicurarsi che tutto funzionasse senza intoppi e per identificare eventuali problemi. Individuando ottimizzazioni semplici in PyTorch e CUDA® a cui non avevamo pensato, hanno migliorato in modo significativo l'efficienza dei nostri carichi di lavoro. Inoltre, ci hanno assistito nello sviluppo di script che hanno fornito preziose informazioni sui dati telemetrici, permettendoci di monitorare l'attività della memoria e di migliorare le prestazioni. Il supporto degli esperti di IA di NVIDIA ci ha permesso di spostare la nostra attenzione dall'ottimizzazione del processo alla conduzione di esperimenti, dato che si tratta principalmente di un progetto di ricerca e sviluppo".

"Il nostro processo di impostazione dei processi di training è passato dal fastidio di inserire manualmente il codice alle macchine remote e garantire la sincronizzazione alla semplicità di premere "Esegui" su DGX Cloud".

Edward Williams
Ingegnere esperto in Machine Learning, Terray Therapeutics

"In qualità di data scientist, il mio limite non è più una workstation con una piccola GPU, ma l’intera capacità del cloud di Terray. DGX Cloud con la piattaforma Base Command mi consente di passare da un singolo nodo a un cluster a 32 GPU con la semplicità di un pulsante".

John Parkhill,
Direttore del reparto di Machine Learning, Terray Therapeutics

Sperimentazione e ottimizzazione dei modelli con un utilizzo delle risorse 4 volte superiore

La ricerca di piccole molecole è un processo iterativo che coinvolge il ciclo continuo di progettazione, produzione, test, analisi e raffinazione di composti per ottenere le proprietà desiderate. Parkhill dichiara: "La facilità d'uso di DGX Cloud ha fornito prestazioni eccezionali e ci ha aiutato a iterare più velocemente nella valutazione degli iperparametri per COATI, consentendoci di ottenere un utilizzo 4 volte superiore rispetto ai servizi cloud alternativi. Ci voleva una settimana per addestrare un modello e lo stavamo facendo in un giorno".

aggiunge Parkhill, "Ora siamo in grado di esplorare facilmente il vasto spazio chimico per trovare molecole rare con proprietà desiderate, come selettività e potenza. Possiamo anche istruire il modello a generare candidati con proprietà specifiche per l'analisi o scoprire molecole completamente nuove che assomigliano a quelle conosciute ma hanno caratteristiche più ottimali".

Trovare nuove molecole che assomiglino a quelle sintetizzate è importante, perché serve come prezioso punto di partenza, sfruttando le conoscenze e la comprensione delle proprietà chimiche esistenti. Ciò consente ai ricercatori di prevedere il comportamento, compresa la sicurezza e l'efficacia, in modo più efficace, accelerando in ultima analisi il processo di sviluppo dei farmaci.

"Il nostro modello migliora nel tempo, poiché generiamo un numero sempre maggiore di molecole in laboratorio ed eseguiamo l'addestramento iterativo su DGX Cloud".

"La facilità d'uso e le prestazioni eccezionali di DGX Cloud ci hanno aiutato a a iterare più velocemente nel trovare le molecole target, consentendoci di ottenere un utilizzo 4 volte superiore rispetto ad altri servizi cloud".

John Parkhill,
Direttore del reparto di Machine Learning, Terray Therapeutics

Guardando verso il futuro

Il campo emergente della progettazione e dell'ottimizzazione molecolare generativa ha il potenziale per migliorare significativamente il tasso di successo clinico dello sviluppo di piccole molecole. Il lavoro pionieristico di Terray sta aprendo la strada all'adozione a livello di settore del loro modello rivoluzionario.

"La chiave per un'IA generativa d'impatto è costituita da dati precisi su scala che possono essere iterati rapidamente, e noi di Terray li abbiamo", dichiara Narbe Mardirossian, Chief Technology Officer di Terray. "Grazie a DGX Cloud, siamo stati in grado di sviluppare un linguaggio molecolare che ha permesso un'ottimizzazione generativa efficiente e vincolata delle molecole per i programmi di ottimizzazione hit to lead e lead. Con questi strumenti, ci aspettiamo di portare diverse nuove terapie ai pazienti che ne hanno bisogno".

“Ci voleva una settimana per addestrare un modello e noi lo stavamo facendo in un giorno”.

John Parkhill,
Direttore del reparto di Machine Learning, Terray Therapeutics

I risultati

  • Miglioramento dell'utilizzo dell'infrastruttura di oltre 4 volte rispetto ad altri servizi cloud
  • Riduzione del tempo di addestramento da una settimana a un giorno
  • Passaggio su DGX Cloud in meno di un giorno
  • Possibilità di addestrare più varianti di COATI in parallelo per trovare l'embedding pre-addestrato ottimale

Il modo più veloce per iniziare a utilizzare la piattaforma DGX è NVIDIA DGX Cloud, una piattaforma di AI-training-as-a-service serverless appositamente progettata per le aziende che sviluppano AI generativa.