Gesundheitswesen und Biowissenschaften

Steigerung der Genauigkeit und Geschwindigkeit bei der Long-Read-Sequenzierung

Ziel

Erhöhte Durchsatzleistung und Genauigkeit für Instrumente der nächsten Generation – unter Beibehaltung der erforderlichen Leistung, Gerätestellfläche und des Kostenrahmens.

Kunde

PacBio

Anwendungsfall

Edge-Computing

Produkte

NVIDIA Parabricks
Von NVIDIA zertifizierte Systeme

Verbesserung der Geschwindigkeit und Genauigkeit von Instrumenten mit NVIDIA Accelerated Computing

Die Sequenzierung von langen DNA-Fragmenten, bekannt als Long-Read-Sequenzierung, wurde in der Januarausgabe von Nature Methods als Methode des Jahres vorgestellt, und PacBio wurde als führender Anbieter in diesem Bereich hervorgehoben. Seit seiner Gründung im Jahr 2023 hat PacBio mit seinen fortschrittlichen Sequenzierungssystemen, die in über 40 Ländern eingesetzt werden und mit insgesamt mehr als 1.000 verkauften Einheiten globalen Einfluss und Größe erreicht. Das Portfolio an geistigem Eigentum des Unternehmens umfasst über 400 erteilte US-Patente, und der Einfluss und die Relevanz von PacBio in der wissenschaftlichen Gemeinschaft werden durch über 9.000 Zitate in verschiedenen Publikationen bekräftigt.

PacBio entwickelt fortschrittliche Sequenzierungslösungen, um Wissenschaftlern und klinischen Forschern zu helfen, komplexe genetische Probleme in der menschlichen Keimbahnsequenzierung, in den Pflanzen- und Tierwissenschaften, bei Infektionskrankheiten, in der Onkologie und anderen aufkommenden Anwendungen zu lösen. Ihre proprietäre Technik für die Long-Read-Sequenzierung erreicht eine Lesedauer von bis zu 20 Kilobasen und übertrifft damit drastisch die typische Leselänge von weniger als 300 Basen, die durch Short-Read-Sequenzierungsmethoden erzeugt wird. Dies ermöglicht ein vollständigeres und genaueres Mapping komplexer Genomregionen, die von der Short-Read-Sequenzierung übersehen werden können. Alles in allem trägt dies zur Weiterentwicklung der Forschung in verschiedenen Bereichen, einschließlich der Krankheitsgenetik und der Evolutionsbiologie, bei.

Highlights

  • PacBio hat die NVIDIA A100 Tensor Core GPU in sein Revio-System integriert, um die Geschwindigkeit und Genauigkeit der Long-Read-Sequenzierung zu beschleunigen und gleichzeitig die Kosten zu minimieren.
  • Rechenleistung: Zusammen mit NVIDIA A100 GPUs bietet Revio eine 20-mal höhere Rechenleistung als PacBio Sequel IIe.
  • Deep Learning: PacBio schafft es, GPUs für Basisaufrufe zu integrieren, den Durchsatz mithilfe von zirkulärer Konsensussequenzierung (CCS) zu erhöhen und die Genauigkeit mit dem DeepConsensus-Modell zu verbessern.
  • Benutzerfreundlichkeit: Revio bietet neben einer Vorlastfähigkeit auch eine 50-prozentige Reduzierung der Verbrauchsmaterialien.
  • Erschwinglichkeit: Revio sequenziert ein menschliches HiFi-Genom für weniger als 1.000 US-Dollar, lädt Instrumente in weniger als einer Minute und verringert die Dateigröße um über 50 Prozent.
  • Hoher Durchsatz: Revio kann jährlich Gesamtgenome von 1.300 Menschen mit einer 30-fachen Abdeckung sequenzieren.

Image courtesy of PacBio.
PacBio’s Revio long-read sequencing system.

PacBios Revio-System: GPU-beschleunigte Long-Read-Sequenzierung

Ein Eckpfeiler der Long-Read-Technik von PacBio ist die hohe Genauigkeit, Qualität und Abdeckung von Genomen. Dies schlägt sich in seiner High-Fidelity (HiFi) Long-Read-Sequenzierung nieder, einem leistungsstarken Tool zur Untersuchung großer genomischer oder transkriptomischer Merkmale auf einer einzelnen DNA- oder RNA-Molekülebene. Ein wesentlicher Aspekt der Erzeugung von Long-Read-Daten ist der Prozess des Basisaufrufs, der für die Bestimmung von Nukleotidsequenzen komplexer, langer DNA-Moleküle von entscheidender Bedeutung ist. Dies erfordert jedoch erhebliche Rechenressourcen, da für jedes Molekül eine Konsensussequenz erzeugt werden muss – ein Prozess, der dann über Millionen von Molekülen ausgeführt wird.

Der Long-Read-Sequenzierer Sequel IIe von PacBio wurde mit CPU-basierter Berechnung entwickelt. Obwohl er gut funktionierte, stieß er leistungstechnisch an seine Grenzen, was zu einer Einschränkung des Durchsatzes und damit auch der Nutzbarkeit für kommerzielle Kunden führte. Um dieses Einschränkungsproblem zu lösen, führte PacBio das Revio-System mit NVIDIA A100 GPUs ein. Diese Weiterentwicklung ermöglichte eine erhebliche Steigerung der Rechenleistung bei gleich bleibender Gerätestellfläche. Als Ergebnis dieses Übergangs zu NVIDIA GPUs in Kombination mit NVIDIA® CUDA® für die Codeoptimierung konnte PacBio die Basisaufrufe beschleunigen, was zu einem besseren Gesamtdurchsatz und einer erhöhten Gesamteffizienz des Sequenzierungsprozesses führte. 

Diese Techniken beschleunigten auch die zirkuläre Konsensussequenzierung (Circular Consensus Sequencing, CCS) auf dem Revio-System erheblich. Die wiederholte Sequenzierung von zirkularisierten DNA-Molekülen zur Erzeugung hochpräziser Lesewerte erforderte eine erhebliche Verarbeitungsleistung und viel Zeit, was den Gesamtdurchsatz und die Gesamteffizienz des Sequenzierers begrenzte. Als Revio dann NVIDIA GPUs einsetzte, konnte PacBio den CCS-Prozess von über 15 Stunden auf 2,5 Stunden reduzieren, was zu Zeitersparnis, verbesserter Produktivität und einer verbesserten kommerziellen Rentabilität der Revio-Sequenz für die Kunden führte.

Hinzufügen eines Deep-Learning-Modells zur Verbesserung der Genauigkeit

 

Nach der GPU-Optimierung von CCS war die Analyse schnell genug, um zusätzliche Workflows zu integrieren und gleichzeitig den Durchsatz des Instruments aufrechtzuerhalten. Dies gab PacBio die Möglichkeit, GPU-beschleunigte Workflows zu implementieren, um die Long-Read-Genauigkeit weiter zu verbessern, ohne zusätzliche Hardware-Investitionen zu benötigen.

Das DeepConsensus-Modell, ein Encoder-only-Transformer, wurde auf den A100-GPUs implementiert und optimiert, wodurch eine robuste In-Instrument-Lösung entstand. Dadurch wurde eine kürzere Lesedauer für hochgenaue HiFi-Lesungen erreicht – von 30 Stunden auf der CPU-basierten Sequel IIe auf 24 Stunden auf der Revio. Als Ergebnis der GPU-Beschleunigung und der Workflows, die dem Instrument hinzugefügt wurden, erreicht PacBio eine 99,9-prozentige Genauigkeit mit HiFi-Sequenzierung in Revio und kann auf bis zu 1.300 menschliche Genome pro Jahr skalieren. Revio ist PacBios erster Sequenzierer mit NVIDIA GPUs und sorgt für eine 20-fache Steigerung der Rechenleistung im Vergleich zum Sequel IIe.

Kunden, die Revio verwenden, können zudem die NVIDIA Parabicks® Suite mit GPU-beschleunigten Industriestandard- und Deep-Learning-Tools für die Genomanalyse zum Alignment und Variantenaufruf nutzen. DeepVariant wurde auf den GPUs als Teil von Parabricks beschleunigt und bietet sehr genaue Variantenaufrufe für HiFi-Lesungen. Eine HiFi-Gesamtgenomsequenzierung (Whole-Genome Sequencing, WGS) mit einer 35-fachen Abdeckung dauert 313 Minuten auf einem CPU-Server und nur acht Minuten mit DeepVariant in Parabricks, auf einem Server mit NVIDIA A100 GPUs.

 

„Mit der Leistungsfähigkeit der HiFi-Sequenzierung konnten unsere Kunden die Genomik transformieren. Revio kann durch die Verwendung von NVIDIA Technik diese Leistungsfähigkeit noch stärker ausschöpfen und so einen hohen Durchsatz und eine hohe Erschwinglichkeit erzielen. In Kombination mit erheblichen Fortschritten im Rechenleistungsbereich wird Revio kurze Laufzeiten und eine 15-fache Steigerung der HiFi-Daten liefern.“

Christian Henry,
CEO und President, PacBio

Image courtesy of PacBio.

Zeitplan der Verbesserungen der post-primären Analyse von PacBio SMRT-Zelldaten. Die Zielverarbeitungszeit für CCS, um mit dem Durchsatz des Geräts Schritt zu halten, betrug 10 Stunden. Da zusätzliche Schritte wie Polieren, Mapping und Marshalling auf der GPU optimiert wurden, konnte genug Zeit gewonnen werden, um die transformatorbasierte DeepConsensus-Analyse hinzuzufügen, welche die HiFi-Lesegenauigkeit verbessert. Das Endergebnis der GPU-optimierten Analysepipeline übertrifft nicht nur die Durchsatzanforderungen für das System, sondern verbessert auch die Gesamtgenauigkeit.

Revio bringt Genomik mithilfe von NVIDIA Technik weltweit voran

Der verbesserte Durchsatz und die verbesserte Genauigkeit, die mit NVIDIA Technik erzielt werden, haben sich durch die breite Einführung von Revio als wertvoll erwiesen. Seit der Einführung im Oktober 2022 wurden Revios weltweit installiert, darunter an der Mohammed Bin Rashid University of Medicine and Health Sciences (MBRU) in Dubai, um die Erforschung der genomischen Medizin bei seltenen Krankheiten und Krebs voranzutreiben, am Wellcome Sanger Institute in Großbritannien, um das Projekt Darwin Tree of Life anzukurbeln und die Long-Reads in menschlichen Anwendungen zu erhöhen, und am Radboud University Medical Center (UMC), um ihre Sequenzierung auf Tausende von Genomen aufzustocken.

Durch den Übergang von CPU- zu GPU-basierten Workflows entwickelte PacBio ein Instrument mit höherem Durchsatz, das Kosteneffizienz, verbesserte Rechenleistung und KI-gesteuerte Genauigkeitsverbesserungen bietet. Diese Fortschritte sind entscheidend für die Entwicklung der nächsten Generation von Genom-Sequenzierern von PacBio, die sich effizient für die Kundenanforderungen in Forschungs- und medizinischen Anwendungen skalieren lassen.

Sie möchten mehr erfahren?

Wenn Sie mehr über NVIDIA-Lösungen für die Gesundheits- und Biowissenschaften erfahren möchten, kontaktieren Sie uns.