Sanger Institute utilizza il server NVIDIA DGX per alimentare la sua pipeline di analisi delle firme mutazionali del cancro, migliorando le prestazioni di 30 volte.
Sanger Institute
Miglioramento delle prestazioni
Server NVIDIA DGX-1™, NVIDIA® NVLink®
Il cancro è causato da danni al DNA delle cellule, noti come mutazioni somatiche. Questo danno può essere il risultato di comportamenti come il fumo e il consumo di alcol, nonché di fattori ambientali come la luce ultravioletta e l'esposizione alle radiazioni.
Il danno al DNA si verifica in modelli specifici noti come "firme mutazionali", che sono unici per il fattore che ha causato il danno. Ad esempio, sebbene il tabacco e le radiazioni ultraviolette causino entrambi il cancro producendo mutazioni, la firma causata dal fumo di tabacco si trova nel cancro del polmone, mentre la firma dell'esposizione alla luce ultravioletta si trova nel cancro della pelle.
Sono state identificate molte firme mutazionali associate al cancro, ma solo circa la metà di esse hanno cause note. Negli ultimi anni, l'analisi del DNA dei tumori ha portato alla scoperta di più di novanta diverse firme mutazionali. Tuttavia, le cause ambientali, dello stile di vita, genetiche o altre potenziali cause di molte di queste firme mutazionali sono ancora sconosciute.
Come parte del team di Cancer Grand Challenges Mutographs finanziato da Cancer Research UK (CRUK), il Wellcome Sanger Institute, uno dei centri di punta di scoperta e comprensione genomica al mondo, utilizza modelli di apprendimento automatico accelerati da GPU NVIDIA per aiutare a capire come i cambiamenti del DNA naturali influenzino il cancro.
L'obiettivo del componente computazionale del progetto è quello di chiarire le cause delle principali differenze geografiche e temporali globali nell'incidenza del cancro attraverso lo studio delle firme mutazionali. Identificare un insieme più ampio di firme mutazionali farà molto per comprendere le correlazioni tra loro e le loro cause, portando in definitiva a trattamenti del cancro più precisi
Il ricercatore del Wellcome Sanger Institute esegue il sequenziamento del DNA. Immagine gentilmente concessa da Wellcome Sanger Institute.
I casi di carcinoma esofageo a cellule squamose variano notevolmente in tutto il mondo. Immagine gentilmente concessa dal Mutographs Project. Fonte dei dati: GLOBOCAN 2012.
Questo lavoro richiede la soluzione di un problema di apprendimento automatico computazionalmente intensivo noto come fattorizzazione della matrice non negativa (NMF). Ludmil Alexandrov ha sviluppato l'approccio per rilevare le firme di mutazione e il software (SigProfiler) mentre era al Sanger Institute e continua a sviluppare questo lavoro con il suo team all'Università della California, San Diego (UCSD). Insieme, NVIDIA e i team di Mutographs dell'UCSD e del Sanger Institute hanno collaborato per utilizzare le GPU per accelerare questa ricerca.
"Progetti di ricerca come la Mutographs Grand Challenge sono solo grandi sfide che superano i confini di ciò che è possibile", ha detto Pete Clapham, leader del Gruppo di supporto informatico presso il Wellcome Sanger Institute. "I sistemi NVIDIA DGX forniscono una notevole accelerazione che consente al team di Mutographs non solo di soddisfare le esigenze computazionali del progetto, ma di superarle ulteriormente, offrendo risultati in modo efficiente precedentemente impossibili."
Le GPU NVIDIA accelerano l'applicazione scientifica scaricando le parti del codice che richiedono più tempo. Mentre il Sanger Institute risparmia sui costi e migliora le prestazioni eseguendo il lavoro computazionale intenso sulle GPU, il resto dell'applicazione viene eseguito ancora sulla CPU. Dal punto di vista del ricercatore, l'applicazione complessiva viene eseguita più velocemente perché utilizza la potenza di elaborazione parallela della GPU per migliorare le prestazioni.
Nel progetto attuale, i ricercatori stanno studiando il DNA dei tumori di 5.000 pazienti con cinque tipi di cancro: pancreas, rene, colorettale e due tipi di cancro esofageo. Per la stima delle prestazioni di calcolo sono state utilizzate cinque matrici di dati sintetici che imitano un tipo di profili mutazionali reali. Un sistema NVIDIA DGX-1 esegue l'algoritmo NMF contro le cinque matrici, mentre i processi di CPU replicati corrispondenti vengono eseguiti in container docker su macchine virtuali OpenStack (VM), in particolare 60 core nei processori Intel Xeon Skylake con 2,6 GHz e 697,3 GB di memoria ad accesso casuale (RAM).
NVIDIA DGX-1 è un sistema integrato per l'IA con otto GPU NVIDIA V100 Tensor Core che si connettono tramite NVIDIA NVLink, l'interconnessione GPU ad alte prestazioni NVIDIA, in una rete ibrida cube-mesh. Insieme alle CPU Intel Xeon a doppio socket e quattro schede di interfaccia di rete NVIDIA Mellanox® InfiniBand da 100 Gb, il DGX-1 offre un petaFLOPS di potenza IA, per prestazioni di addestramento senza precedenti. Il software di sistema DGX-1, le potenti librerie e la rete NVLink sono ottimizzati per scalare il deep learning tra tutte le otto GPU V100 Tensor Core per fornire una piattaforma flessibile e dalle massime prestazioni per lo sviluppo e la distribuzione di applicazioni IA sia in produzione che in ricerca.
“Progetti di ricerca come la Mutographs Grand Challenge sono proprio questo: grandi sfide che superano i confini di ciò che è possibile. I sistemi NVIDIA DGX offrono un'accelerazione considerevole che consente al team Mutographs, non solo di soddisfare le esigenze computazionali del progetto, ma di spingerlo oltre, in modo da fornire risultati impossibili da raggiungere prima".
Pete Clapham, leader del gruppo di sostegno informatico, Wellcome Sanger Institute
È stata osservata un'accelerazione media di 30 volte nell'esecuzione dei processi sulla piattaforma DGX-1 rispetto a quelli eseguiti sull'hardware della CPU. .Il sistema DGX-1 ha fornito risultati accurati in sedici ore per un processo equivalente eseguito su CPU che di norma richiedeva una durata di venti giorni in un'analisi reale.
La velocità e la potenza di calcolo delle GPU stanno permettendo ai ricercatori di ottenere risultati scientifici più velocemente, di eseguire un numero maggiore di esperimenti più complessi di quanto fosse possibile prima; una strada per la ricerca scientifica che potrebbero rivoluzionare il futuro dei trattamenti oncologici.