Sanità e bioscienze

Aumentare la precisione e la velocità del sequenziamento a lunga lettura

Obiettivo

Aumentare la produttività e la precisione per gli strumenti di nuova generazione mantenendo i limiti di potenza, ingombro e costi necessari.

Cliente

PacBio

Scenario di utilizzo

Edge Computing

Prodotti

NVIDIA Parabricks
, NVIDIA-Certified Systems

Miglioramento della velocità e della precisione degli strumenti con il calcolo accelerato NVIDIA

Il sequenziamento di frammenti di DNA lunghi, noto come sequenziamento a lunga lettura, è stato descritto come il metodo dell'anno nel numero di gennaio 2023 di Nature Methods, e PacBio è stato evidenziato come leader di spicco in questo spazio. Dalla loro fondazione nel 2004, PacBio ha raggiunto un'impronta globale significativa con i suoi sistemi di sequenziamento avanzati distribuiti in oltre 40 paesi, per un totale di oltre 1.000 unità vendute. Il portafoglio di proprietà intellettuale dell'azienda comprende oltre 400 brevetti statunitensi rilasciati e la loro influenza e rilevanza nella comunità scientifica sono sottolineate da oltre 9.000 citazioni in varie pubblicazioni.

PacBio costruisce soluzioni di sequenziamento avanzate per aiutare scienziati e ricercatori clinici a risolvere problemi geneticamente complessi attraverso il sequenziamento della linea germinale umana, le scienze vegetali e animali, le malattie infettive, l'oncologia e altre applicazioni emergenti. La loro tecnologia proprietaria per il sequenziamento a lunga lettura genera letture fino a 20 kilobasi di lunghezza, superando notevolmente la lunghezza tipica di lettura inferiore a 300 basi prodotte dai metodi di sequenziamento a breve lettura. Ciò consente una mappatura più completa e accurata di regioni complesse del genoma che possono essere trascurate dal sequenziamento a breve lettura, che aiuta a far progredire la ricerca in vari campi, tra cui la genetica delle malattie e la biologia evolutiva.

Luminosità

  • PacBio ha incorporato la GPU NVIDIA A100 Tensor Core nel proprio sistema Revio per accelerare la velocità e la precisione del sequenziamento a lunga lettura, riducendo al minimo i costi.
  • Potenza di calcolo: Revio con GPU NVIDIA A100 offre una potenza di calcolo 20 volte superiore rispetto a Sequel IIe di PacBio.
  • Deep learning: PacBio ha incorporato GPU per le chiamate di base, ha aumentato la velocità di esecuzione con il sequenziamento di consenso circolare (CCS) e ha migliorato la precisione utilizzando il modello DeepConsensus.
  • Facilità d'uso: Revio offre una riduzione del 50% dei materiali di consumo insieme a una capacità di carico in anticipo.
  • Convenienza: Revio sequenza un genoma HiFi umano per meno di $ 1.000, carica gli strumenti in meno di un minuto e riduce le dimensioni del file di oltre il 50%.
  • Alta velocità di produzione: Revio può sequenziare 1.300 genomi interi umani ogni anno con una copertura di 30 volte superiore.

Image courtesy of PacBio.
PacBio’s Revio long-read sequencing system.

PacBio Revio System: sequenziamento a lunga lettura accelerato da GPU

Una pietra miliare della tecnologia a lunga lettura di PacBio è l'elevata precisione, qualità e copertura dei genomi. Ciò si manifesta nel suo sequenziamento a lunga lettura ad alta fedeltà (HiFi), un potente strumento utilizzato per studiare grandi caratteristiche genomiche o trascrittomiche a livello di singola molecola di DNA o RNA. Un aspetto essenziale della generazione di dati a lunga lettura è il processo di chiamata base, che è cruciale per determinare le sequenze nucleotidiche di molecole di DNA lunghe e complesse. Tuttavia, ciò richiede notevoli risorse computazionali, data la necessità di generare una sequenza di consenso per ciascuna molecola, un processo che viene poi eseguito su milioni di molecole.

Il sequenziatore a lunga lettura Sequel IIe di PacBio è stato progettato con calcolo basato sulla CPU. Sebbene funzionale, ha raggiunto una soglia di prestazioni che ha limitato l'ottimale in tutto e, quindi, la sua utilità per i clienti commerciali. Per affrontare questo limite, PacBio ha introdotto il sistema Revio con GPU NVIDIA A100. Questo progresso ha consentito un aumento significativo della potenza di calcolo all'interno della stessa dimensione del dispositivo. Come risultato di questa transizione alle GPU NVIDIA, insieme a NVIDIA® CUDA® per l'ottimizzazione del codice, PacBio è stato in grado di accelerare le chiamate di base, con conseguente throughput complessivo ed efficienza del processo di sequenziamento.

Queste tecnologie hanno anche accelerato in modo notevole il sequenziamento del consenso circolare (CCS) sul sistema Revio. Il sequenziamento ripetuto di molecole di DNA circolarizzate per generare letture ad alta precisione ha richiesto una potenza di elaborazione e un tempo sostanziali, limitando il throughput complessivo e l'efficienza del sequenziatore. Con Revio che utilizza GPU NVIDIA, PacBio è stato in grado di ridurre il processo CCS da oltre 15 ore a 2,5 ore, traducendosi in risparmi di tempo, una maggiore produttività e una maggiore fattibilità commerciale della sequenza di Revio per i clienti.

Aggiunta di un modello di apprendimento profondo per migliorare la precisione

Dopo l’ottimizzazione della GPU del CCS, l’analisi è stata sufficientemente veloce da incorporare ulteriori flussi di lavoro mantenendo la velocità di trasmissione dello strumento. Questo ha dato a PacBio l’opportunità di implementare flussi di lavoro accelerati dalla GPU per migliorare ulteriormente la precisione di lettura a lungo termine, senza ulteriori investimenti hardware.

Il modello DeepConsensus, un trasformatore solo per codificatori, è stato implementato e ottimizzato sulle GPU A100, creando una soluzione robusta all'interno dello strumento. Questo ha permesso di ottenere un tempo più breve per le letture HiFi ad alta precisione, da 30 ore sulla Sequel IIe basata sulla CPU a 24 ore sulla

Revio. Come risultato dell’accelerazione della GPU e dei flussi di lavoro aggiunti allo strumento, PacBio raggiunge un’accuratezza del 99,9% con il sequenziamento HiFi in Revio e può scalare fino a 1.300 genomi umani all’anno. Revio è il primo sequenziatore di PacBio a includere le GPU NVIDIA, fornendo un aumento di 20 volte della potenza di calcolo rispetto al Sequel IIe. I clienti che utilizzano Revio possono inoltre utilizzare la suite NVIDIA Parabicks® di strumenti di analisi genomica standard e di deep learning accelerati da GPU per l’allineamento e le chiamate delle varianti. DeepVariant è stato accelerato su GPU come parte di Parabricks e offre chiamate di varianti molto accurate per le letture HiFi. Il sequenziamento dell'intero genoma HiFi (WGS) con copertura a 35x richiede 313 minuti su un server CPU e solo otto minuti con DeepVariant in Parabricks su un server con GPU NVIDIA A100.

“I nostri clienti hanno trasformato la genomica con la potenza del sequenziamento HiFi. Revio, utilizzando le tecnologie NVIDIA, sblocca ulteriormente questa potenza aggiungendo un alto rendimento e convenienza. In combinazione con i significativi progressi nel calcolo, Revio offrirà tempi di esecuzione brevi e un aumento di 15 volte dei dati HiFi.

Christian Henry
CEO e Presidente di PacBio

Image courtesy of PacBio.

Cronologia dei miglioramenti all'analisi post-primaria dei dati delle cellule PacBio SMRT. Il tempo di elaborazione affinché il CCS tenga il passo con la velocità dello strumento è stato di 10 ore. Poiché sono stati ottimizzati passaggi aggiuntivi come la lucidatura, la mappatura e lo smistamento sulla GPU, è stato guadagnato abbastanza tempo per aggiungere l'analisi DeepConsensus basata sul trasformatore per migliorare la precisione di lettura HiFi. Il risultato finale della pipeline di analisi ottimizzata per la GPU non solo supera i requisiti di throughput del sistema, ma ha migliorato la precisione complessiva.

Revio fa avanzare la genomica a livello globale con le tecnologie NVIDIA

Il miglioramento della velocità e della precisione ottenuti con le tecnologie NVIDIA si è dimostrato prezioso grazie all'ampia adozione di Revio. Dal suo lancio nell’ottobre 2022, Revios è stato installato in tutto il mondo, tra cui nella Mohammed Bin Rashid University of Medicine and Health Sciences (MBRU) di Dubai per spingere la scoperta della medicina genomica nelle malattie rare e nel cancro, nel Wellcome Sanger Institute nel Regno Unito per accelerare il progetto Darwin Tree of Life e aumentare le lunghe letture nelle applicazioni umane e nel Radboud University Medical Center (UMC) per aumentare il loro sequenziamento a migliaia di genomi.

Attraverso la transizione da flussi di lavoro basati su CPU a GPU, PacBio ha sviluppato uno strumento di maggiore efficienza che offre convenienza, una potenza di calcolo migliorata e miglioramenti della precisione basati sull’IA. Questi progressi sono fondamentali per la costruzione della loro prossima generazione di sequenziatori genomici in grado di adattarsi in modo efficiente alle richieste dei clienti attraverso la ricerca e le applicazioni mediche.

Vuoi saperne di più?

Per saperne di più sulle soluzioni NVIDIA per la sanità e le scienze biologiche, contattaci.