Modelli di fondazione biomolecolari per le attività di scoperta nel settore delle scienze della vita

Modelli di fondazione biomolecolari per le attività di scoperta nel settore delle scienze della vita

Accelera i test iterativi e sblocca le pipeline in stallo nonché nuove funzionalità generative e predittive con l'esplorazione model-first.

Carichi di lavoro

Biologia strutturale
Progettazione molecolare
Simulazione molecolare
Imaging biomedico

Settori

Settore sanitario e scienza della vita /
Istruzione superiore / HPC/calcolo scientifico
/ Agricoltura

Obiettivo aziendale

Innovazione
Ritorno sugli investimenti

Prodotti

NIM
BioNeMo
NVIDIA AI Enterprise
MONAI

Addestramento dei modelli di IA biomolecolare

I modelli di fondazione hanno un ruolo trasformativo nella ricerca e nella scoperta nel campo delle scienze della vita perché possono apprendere la struttura, le regole e le relazioni che si celano dietro la biologia e la chimica direttamente dai dati attraverso più sequenze, strutture, funzioni e modalità.

A differenza dei modelli statistici tradizionali creati per compiti più circoscritti, questi modelli generalizzano più attività biomolecolari, ad esempio, il ripiegamento delle proteine, l'editing genetico, il docking molecolare e persino i fenotipi cellulari. Codificando la complessità biologica in rappresentazioni ricche e acquisite tramite apprendimento, possono prevedere le interazioni, generare nuove molecole e guidare gli esperimenti, anche in domini con dati scarsi o precedentemente difficili da affrontare. Ciò rende possibili nuove funzionalità nella progettazione terapeutica, nella genomica funzionale e nell'ingegneria biomolecolare, trasformando la scienza da flussi di lavoro lenti e basati su approcci tradizionali a loop di progettazione veloci e basati sui feedback. In breve, l'IA può ora apprendere la biologia e la chimica e aiutare a progettare ciò che verrà.

Modelli di fondazione proteici per la struttura, la funzione e la progettazione

I modelli di fondazione proteici stanno facendo per le proteine ciò che GPT-4 ha fatto per il linguaggio, imparando le regole di ripiegamento, funzione ed evoluzione, in un'unica rete neurale riutilizzabile.

I modelli di fondazione proteici, ovvero trasformatori di miliardi di parametri come AlphaFold 3, ESM-3, Proteína e Pallatom, collassano pipeline separate per la previsione delle piegature, la scansione mutazionale, il docking e il design de-novo, in un unico motore con prompt. Grazie alla scala (dati/parametri enormi), alla multimodalità (incorporazione congiunta di sequenza-struttura-ligando) e alla controllabilità (prompting od ottimizzazioni rapide), le aziende hanno il potenziale di trasformare settimane di lavoro di laboratorio o codice in minuti di inferenza, trasformando la ricerca e lo sviluppo sulle proteine in un flusso di lavoro software-first.

I modelli di fondazione di ultima generazione (AlphaFold 3, ESM-3, Proteína, Pallatom) unificano la previsione dei ripiegamenti, l'assegnazione di punteggi per le varianti, il docking molecolare e la progettazione delle proteine su richiesta in un'unica pipeline IA.

Presto, questi modelli potranno anche andare oltre il ripiegamento fino ad arrivare alla fabbricazione su vasta scala, consentendo la progettazione di complessi multi-catena, percorsi metabolici e persino biomateriali adattivi su richiesta. Si prevede che saranno tre correnti a guidare questo futuro: la continua scalabilità verso set di addestramento di trilioni di token in grado di catturare ripiegamenti rari, la fusione intermodale più profonda, che combina mappe crio-EM, letture di singola cellula e cinetica di reazione e infine gli adattatori plug-and-play (livelli di azione) che traducono le coordinate di un modello direttamente in costrutti di DNA o in ricette di espressione prive di cellule. La realizzazione di questa visione richiede set di dati strutturali e funzionali condivisi e di qualità elevata, suite di benchmarking aperte per l'accuratezza della generazione e la sicurezza nonché metodi di calcolo efficienti in modo che anche i laboratori e le startup, non solo le grandi aziende tecnologiche, possano iterare alla velocità dei modelli di base.

Modelli di fondazione genomici per i blueprint del DNA della vita

I modelli di fondazione genomici come Evo 2, Nucleotide Transformer, Enformer e Geneformer stanno passando dall'essere esclusivamente paper scientifici a prodotti in fase di sviluppo iniziale. 

Questi modelli stanno già diventando leader nel campo dei benchmark per la previsione degli effetti delle varianti e l'annotazione a singola cellula, ma oggi coprono ancora solo una porzione ridotta della biologia genomica. La ricetta per il progresso finora è semplice ma potente: scala massiccia (miliardi di token DNA + parametri del trasformatore), trasferimento auto-supervisionato (pre-addestramento sui dati omici e successivamente ottimizzazione leggera) e, per alcuni modelli, multimodalità (combinando sequenza, cromatina e letture di singole cellule in un unico modello). Con la crescita dei set di dati aperti e il miglioramento dell'addestramento efficiente basato sulle GPU, questi “modelli di fondazione genomici” diventeranno uno standard in tutti gli stack tecnologici delle scienze della vita.

I modelli di fondazione genomici (Evo 2, Nucleotide Transformer, Enformer v2, scGPT) trasformano miliardi di token di DNA in previsioni di effetti di varianti in tempo reale, annotazioni di singole cellule e progettazioni pronte per la tecnologia CRISPR, aprendo la strada ai co-piloti di intelligenza artificiale su scala genomica e alla scoperta di terapie di ultima generazione.

In futuro, arriverà anche l'era dei co-piloti IA a livello genomico. Studi come Geneformer e Evo 2 dimostrano infatti che i modelli trasformativi possono non solo prevedere, ma anche progettare utili modifiche CRISPR, promotori de-novo e circuiti normativi completamente in silico. Architetture emergenti come HyenaDNA, GenSLM e Longformer-DNA possono estendere le finestre di contesto oltre 1 Mbp, catturando i loop cromatinici 3D e la regolazione genica a lungo raggio. Alla fine, i dati multi-omici potranno anche incorporare la metilazione, l'ATAC-seq e l'RNA spaziale nelle sequenze per ottenere informazioni biologiche più ricche. Questi progressi consentiranno il triage delle varianti cliniche in tempo reale, la scoperta di miglioratori ad alto rendimento e nuovi approcci di progettazione terapeutica in un solo giorno, come la terapia cellulare programmabile, il tutto da una singola API del modello di fondazione genomico. Per realizzare questo obiettivo sono necessari set di dati genomici aperti e sicuri dal punto di vista della privacy, benchmark zero-shot standardizzati e un'infrastruttura di calcolo e software di nuova generazione che rendano accessibile il pre-addestramento di miliardi di token al di fuori dei laboratori hyperscale.

Modelli di fondazione per molecole di piccole dimensioni

I modelli di fondazione chimici sono passati dall'essere semplici demo di ricerca a strumenti del mondo reale per la scoperta di farmaci. 

Modelli come MoLFormer-XL, Uni-Mol 2, MolMIM e GenMol analizzano centinaia di milioni di stringhe di molecole di piccole dimensioni (SMILES), strutture 3D e dati di chimica quantistica per suggerire nuovi candidati farmacologici, predire le proprietà biochimiche principali in pochi secondi e delineare possibili percorsi di sintesi. Alla base di questo progresso vi sono tre forze: i trasformatori 3D e i modelli di diffusione in grado di comprendere le forme molecolari, il pre-addestramento multi-task che consente ai modelli di gestire la previsione delle proprietà, la valutazione del legame e la pianificazione della sintesi nonché l'apprendimento aumentato basato sulla simulazione che incorpora la fisica dalle simulazioni quantistiche e di dinamica molecolare.

I modelli di fondazione per molecole di dimensioni ridotte come MoLFormer-XL, Uni-Mol 2, MolMIM e GenMol, utilizzano stringhe SMILES, strutture 3D e dati di chimica quantistica per generare candidati farmacologici, prevedere le proprietà ADMET e pianificare percorsi di sintesi tramite trasformatori 3D-aware, multi-task e aumentati tramite simulazione.

I trasformatori di grafi di grandi dimensioni addestrati su reazioni chimiche, simulazioni molecolari e strutture 3D possono proporre sintesi, segnalare la tossicità e consigliare i catalizzatori verdi da un embedding condiviso. Il loro ulteriore sviluppo si basa su tre forze: scale di dati/parametri sempre più grandi, pre-addestramento multimodale che fonde spettri e strutture cristalline con le condizioni di reazione e adattatori plug-in che reindirizzano un modello agli scaffold di nicchia in pochi minuti. La distribuzione su vasta scala richiede ancora set di reazioni/proprietà aperti e di alta qualità, benchmark rigorosi e un throughput GPU più efficiente per le esecuzioni di miliardi di token. Una volta implementati, però, tali modelli di fondazione chimici consentiranno di ridurre i tempi di ottimizzazione dei lead, ridurre gli sprechi in laboratorio e rendere la sintesi predittiva una routine nei flussi di lavoro della chimica medicinale.

Crea questo caso d'uso

Prova i microservizi NVIDIA NIM per distribuire in modo semplice e veloce i potenti modelli IA.

Casi d'uso correlati