Sanità e scienze della vita

Ridurre l'analisi spaziale a cellula singola da ore a minuti

I campioni di polmone umano vengono eseguiti con l'analizzatore 10x Genomics Xenium e vengono elaborati tramite NVIDIA RAPIDS. Immagine fornita da TGen.

Obiettivo

Il Translational Genomics Research Institute (TGen) è un istituto senza scopo di lucro che si concentra su diverse malattie, dalla genomica del cancro alla genomica di base di malattie complesse. L'aumento dei dati derivanti dal sequenziamento multi-omico ha dato luogo a nuove sfide computazionali. Utilizzando NVIDIA RAPIDS™, TGen ha potuto ridurre il tempo di analisi su dataset di 4 milioni di cellule da 10 ore a tre minuti.

Cliente

TGen

Scenario di utilizzo

Strumenti e tecniche di calcolo accelerato
Data Science

Prodotti

NVIDIA RAPIDS
NVIDIA Parabricks
NVIDIA DGX

Su TGen

Fondata nel 2002, TGen, parte del centro di ricerca City of Hope, si concentra su una varietà di malattie che vanno dalla genomica del cancro alla genomica di base di malattie complesse. In quanto istituto senza scopo di lucro autonomo, l'obiettivo di TGen è quello di avere un impatto positivo sulla cura del paziente e condurre ricerche che accelerano le soluzioni traslazionali utilizzando la genomica.

Nicholas Banvoich, PhD e professore associato della Divisione integrata di genomica del cancro presso TGen, gestisce un laboratorio di ricerca incentrato sui cambiamenti molecolari da cui dipendono le evoluzioni della malattia, compresi l'inizio, il progresso, il trattamento e la risposta. Il lavoro del suo team si concentra principalmente sulla fibrosi polmonare, una malattia polmonare non cancerosa, e sull'oncologia.

Oltre al suo laboratorio, Banovich dirige anche il centro di analisi multi-omica a cellula singola e spaziale di TGen. Come spiega, "Il mio ruolo è quello di introdurre queste nuove tecnologie che ci consentono di fare progressi nell'analisi multi-omica a cellula singola e spaziale, oltre a lavorare con partner come NVIDIA su approcci computazionali per analizzare i dati che potrebbero essere implementati in modo più ampio al di fuori del mio laboratorio."

Ottenere più insight con gli approcci a cella singola

Storicamente, TGen macinava i tessuti, estraeva informazioni sulle molecole da tutte le cellule all'interno di essi ed esaminava le informazioni in aggregato. Tuttavia, questo poneva alcune sfide. "Ogni tessuto, che si tratti di polmoni, cuore o tumori, non è costituito da un monolite. Sono davvero complessi e costituiti da diversi tipi di cellule", spiega Banovich. "Questi tipi di cellule fanno cose diverse in base alla progressione della malattia, ai risultati e alla risposta al trattamento". Il team di Banovich ha condotto analisi di massa e ha confrontato campioni della malattia e di controllo prima di adottare gli approcci a cellula singola. Tuttavia, questo non ha fornito il livello di granularità necessario a livello cellulare. Questi approcci hanno fornito solo una media di tutto ciò che stava accadendo. 

Banovich spiega: "Quando abbiamo iniziato ad adottare gli approcci a cellula singola, abbiamo potuto davvero fare un confronto equo ed esaminare ogni singolo tipo di cellula e dire cosa accade nella malattia e cosa accade nel controllo". Gli approcci a cellula singola hanno permesso di comprendere le basi molecolari della malattia, ma c'era un altro approccio che avrebbe potuto fornire ancora più insight: l'analisi spaziale.

La nostra prima esecuzione con RAPIDS, senza alcuna ottimizzazione, ci ha portato da 10 ore a 10 minuti. Perfezionandola un po', siamo arrivati a tre minuti per elaborare questi dati.

Evan Mee, bioinformatico, Divisione integrata di genomica del cancro, TGen

Un'esplosione di dati con l'omica spaziale

“Una delle più grandi e immediate conseguenze del passaggio dall'analisi a cellula singola a quella spaziale è la generazione di enormi quantità di dati”, spiega Banovich. Per dare un'idea della portata dell’aumento dei dati spaziali, il team di Banovich ha eseguito il sequenziamento dell’RNA a cellula singola del polmone per circa sette anni e ha raccolto campioni da oltre 200 persone. Di conseguenza, sono stati generati dati da circa 2,5 milioni di cellule in aggregato. Per un contesto ancora più ampio, l’intero Human Lung Cell Atlas è composto da 4 milioni di cellule.

TGen utilizza piattaforme commerciali di analisi spaziale leader del mercato, tra cui Vizgen MERSCOPE e 10x Genomics Xenium Analyzer. Con questi strumenti spaziali, TGen acquisisce 30.000-50.000 cellule per campione e una singola esecuzione può generare dati da oltre 2 milioni di cellule. “In due esecuzioni sulla piattaforma Xenium, generiamo dati su più cellule che sull’intero progetto Human Lung Cell Atlas, che ha coinvolto 40 ricercatori e 10 paesi”, spiega Banovich. “Sono delle quantità di dati davvero enormi”.

“Abbiamo creato Xenium Analyzer per aiutare i ricercatori all’avanguardia come TGen a passare rapidamente dallo strumento all’insight grazie alla nostra potente analisi integrata e abilitata dalle GPU NVIDIA. La combinazione di Xenium con NVIDIA RAPIDS accelera ulteriormente i nostri flussi di lavoro top di gamma e consente un’analisi più precisa in modo tale che i ricercatori possano passare dall’esecuzione al risultato e dai dati alla scoperta ancora più velocemente. Il lavoro di TGen sta espandendo i confini della scienza e trasformando la nostra comprensione della salute e della malattia. Il mondo non può permettersi di attendere queste scoperte”, spiega Adrian Benjamin, responsabile del marketing globale dell'analisi spaziale presso 10x Genomics.

Il 10x Genomics Xenium Analyzer. Immagine fornita da 10x Genomics.

Sfide computazionali dall'omica spaziale

Dai dati relazionali che consentono ai ricercatori di vedere la posizione delle cellule in relazione ad altre cellule, ai dati di imaging che possono essere utilizzati sovrapponendoli ai dati molecolari, la multi-omica spaziale offre nuove opportunità per una comprensione più profonda. Tuttavia, queste nuove funzionalità presentano anche nuove sfide computazionali. Per TGen era fondamentale non solo trovare un modo per affrontare tali sfide, ma anche far sì di essere in grado di sfruttare al massimo i campioni ricevuti dagli studi clinici.

I flussi di lavoro standard per l'elaborazione di dati a cella singola erano gestibili, poiché il team ha lavorato raramente con grandi dataset. Una volta che il team è passato all'analisi spaziale, si è subito reso conto che si trattava di una sfida più grande. Le prime esecuzioni da strumenti omici spaziali hanno portato fino a 10 milioni di celle. Lo strumento Xenium Analyzer, con tecnologia NVIDIA, riduce il tempo per ottenere i risultati eseguendo analisi integrate e fornendo formati di file comuni per l'uso in strumenti di terze parti. Tuttavia, i flussi di lavoro standard utilizzati per l'analisi terziaria, dei componenti principali e di clustering hanno richiesto 10-14 ore.

A peggiorare le cose, queste pipeline non sono fisse. I dati passano attraverso le pipeline e i risultati vengono quindi valutati in base alle prestazioni dell'algoritmo di clustering. Se le prestazioni non soddisfano le aspettative, si modificano i parametri e si ripete il processo. Come spiega Banovich, "Ciò inizia a diventare davvero proibitivo se ciascuna di queste iterazioni richiede un processo di 10 ore. Di conseguenza, anche con 3 o 4 milioni di cellule, ci voleva troppo tempo."

Guardando al futuro, intendiamo generare dataset con decine di milioni o forse centinaia di milioni di cellule. La scalabilità tra dataset di tali dimensioni è possibile solo perché siamo stati in grado di utilizzare l'implementazione RAPIDS.

Nicholas Banovich, PhD, Professore associato, Divisione integrata di genomica del cancro, TGen

Collaborazione con NVIDIA

Di conseguenza, TGen si è rivolto a NVIDIA RAPIDS, una suite open source di librerie IA e data science accelerate da GPU che migliora le prestazioni delle pipeline di dati. “Abbiamo deciso di esaminare l’implementazione RAPIDS di Scanpy.  Con la nostra prima prima esecuzione con RAPIDS, senza alcuna ottimizzazione, siamo passati da 10 ore a 10 minuti”, spiega Evan Mee, bioinformatico di TGen. “Perfezionandola un po', siamo arrivati a tre minuti per elaborare questi dati”.

I campioni di polmone umano vengono eseguiti con l'analizzatore 10x Genomics Xenium. Immagine fornita da TGen.

Il risparmio di tempo si traduce anche in ricerche più efficaci. Invece di attendere il controllo qualità e dei lunghi intervalli tra le analisi di base, i membri del team di Banovich possono lavore in maniera più appagante.

RAPIDS ha cambiato il modo in cui Banovich e il suo team eseguono le analisi e, alla fine, arrivano alle conclusioni. La capacità di iterare rapidamente apre nuove possibilità per la ricerca futura. Studiare grandi dataset permette di avere un quadro più chiaro nella ricerca traslazionale. Ad esempio, i ricercatori devono osservare come le cellule interagiscono all'interno dei loro ambienti locali. Nel caso di cellule rare, questo richiede l'analisi di un numero elevato di cellule, che non sarebbe stato fattibile senza le piattaforme spaziali e le analisi RAPIDS.

Oltre a comprendere i tipi di cellule rare, ora è possibile costruire grandi atlanti a tre dimensioni. Non solo i ricercatori possono capire come le cellule interagiscono a livello locale, ma possono comprendere anche la malattia all'interno dell'architettura più ampia del tessuto e vedere come progredisce nel sistema per avere una visione molto più granulare della malattia.

Banovich riassume l'impatto di NVIDIA su questo prossimo capitolo: "Guardando al futuro, intendiamo generare dataset con decine di milioni o forse centinaia di milioni di cellule. La scalabilità tra dataset di tali dimensioni è possibile solo perché siamo stati in grado di utilizzare l'implementazione RAPIDS."

Scopri di più sulle soluzioni NVIDIA per la genomica.