Erhöhte Durchsatzleistung und Genauigkeit für Instrumente der nächsten Generation – unter Beibehaltung der erforderlichen Leistung, Gerätestellfläche und des Kostenrahmens.
PacBio
Edge-Computing
NVIDIA Parabricks
Von NVIDIA zertifizierte Systeme
Die Sequenzierung von langen DNA-Fragmenten, bekannt als Long-Read-Sequenzierung, wurde in der Januarausgabe von Nature Methods als Methode des Jahres vorgestellt, und PacBio wurde als führender Anbieter in diesem Bereich hervorgehoben. Seit seiner Gründung im Jahr 2023 hat PacBio mit seinen fortschrittlichen Sequenzierungssystemen, die in über 40 Ländern eingesetzt werden und mit insgesamt mehr als 1.000 verkauften Einheiten globalen Einfluss und Größe erreicht. Das Portfolio an geistigem Eigentum des Unternehmens umfasst über 400 erteilte US-Patente, und der Einfluss und die Relevanz von PacBio in der wissenschaftlichen Gemeinschaft werden durch über 9.000 Zitate in verschiedenen Publikationen bekräftigt.
PacBio entwickelt fortschrittliche Sequenzierungslösungen, um Wissenschaftlern und klinischen Forschern zu helfen, komplexe genetische Probleme in der menschlichen Keimbahnsequenzierung, in den Pflanzen- und Tierwissenschaften, bei Infektionskrankheiten, in der Onkologie und anderen aufkommenden Anwendungen zu lösen. Ihre proprietäre Technik für die Long-Read-Sequenzierung erreicht eine Lesedauer von bis zu 20 Kilobasen und übertrifft damit drastisch die typische Leselänge von weniger als 300 Basen, die durch Short-Read-Sequenzierungsmethoden erzeugt wird. Dies ermöglicht ein vollständigeres und genaueres Mapping komplexer Genomregionen, die von der Short-Read-Sequenzierung übersehen werden können. Alles in allem trägt dies zur Weiterentwicklung der Forschung in verschiedenen Bereichen, einschließlich der Krankheitsgenetik und der Evolutionsbiologie, bei.
Image courtesy of PacBio.
PacBio’s Revio long-read sequencing system.
Ein Eckpfeiler der Long-Read-Technik von PacBio ist die hohe Genauigkeit, Qualität und Abdeckung von Genomen. Dies schlägt sich in seiner High-Fidelity (HiFi) Long-Read-Sequenzierung nieder, einem leistungsstarken Tool zur Untersuchung großer genomischer oder transkriptomischer Merkmale auf einer einzelnen DNA- oder RNA-Molekülebene. Ein wesentlicher Aspekt der Erzeugung von Long-Read-Daten ist der Prozess des Basisaufrufs, der für die Bestimmung von Nukleotidsequenzen komplexer, langer DNA-Moleküle von entscheidender Bedeutung ist. Dies erfordert jedoch erhebliche Rechenressourcen, da für jedes Molekül eine Konsensussequenz erzeugt werden muss – ein Prozess, der dann über Millionen von Molekülen ausgeführt wird.
Der Long-Read-Sequenzierer Sequel IIe von PacBio wurde mit CPU-basierter Berechnung entwickelt. Obwohl er gut funktionierte, stieß er leistungstechnisch an seine Grenzen, was zu einer Einschränkung des Durchsatzes und damit auch der Nutzbarkeit für kommerzielle Kunden führte. Um dieses Einschränkungsproblem zu lösen, führte PacBio das Revio-System mit NVIDIA A100 GPUs ein. Diese Weiterentwicklung ermöglichte eine erhebliche Steigerung der Rechenleistung bei gleich bleibender Gerätestellfläche. Als Ergebnis dieses Übergangs zu NVIDIA GPUs in Kombination mit NVIDIA® CUDA® für die Codeoptimierung konnte PacBio die Basisaufrufe beschleunigen, was zu einem besseren Gesamtdurchsatz und einer erhöhten Gesamteffizienz des Sequenzierungsprozesses führte.
Diese Techniken beschleunigten auch die zirkuläre Konsensussequenzierung (Circular Consensus Sequencing, CCS) auf dem Revio-System erheblich. Die wiederholte Sequenzierung von zirkularisierten DNA-Molekülen zur Erzeugung hochpräziser Lesewerte erforderte eine erhebliche Verarbeitungsleistung und viel Zeit, was den Gesamtdurchsatz und die Gesamteffizienz des Sequenzierers begrenzte. Als Revio dann NVIDIA GPUs einsetzte, konnte PacBio den CCS-Prozess von über 15 Stunden auf 2,5 Stunden reduzieren, was zu Zeitersparnis, verbesserter Produktivität und einer verbesserten kommerziellen Rentabilität der Revio-Sequenz für die Kunden führte.
Nach der GPU-Optimierung von CCS war die Analyse schnell genug, um zusätzliche Workflows zu integrieren und gleichzeitig den Durchsatz des Instruments aufrechtzuerhalten. Dies gab PacBio die Möglichkeit, GPU-beschleunigte Workflows zu implementieren, um die Long-Read-Genauigkeit weiter zu verbessern, ohne zusätzliche Hardware-Investitionen zu benötigen.
Das DeepConsensus-Modell, ein Encoder-only-Transformer, wurde auf den A100-GPUs implementiert und optimiert, wodurch eine robuste In-Instrument-Lösung entstand. Dadurch wurde eine kürzere Lesedauer für hochgenaue HiFi-Lesungen erreicht – von 30 Stunden auf der CPU-basierten Sequel IIe auf 24 Stunden auf der Revio. Als Ergebnis der GPU-Beschleunigung und der Workflows, die dem Instrument hinzugefügt wurden, erreicht PacBio eine 99,9-prozentige Genauigkeit mit HiFi-Sequenzierung in Revio und kann auf bis zu 1.300 menschliche Genome pro Jahr skalieren. Revio ist PacBios erster Sequenzierer mit NVIDIA GPUs und sorgt für eine 20-fache Steigerung der Rechenleistung im Vergleich zum Sequel IIe.
Kunden, die Revio verwenden, können zudem die NVIDIA Parabicks® Suite mit GPU-beschleunigten Industriestandard- und Deep-Learning-Tools für die Genomanalyse zum Alignment und Variantenaufruf nutzen. DeepVariant wurde auf den GPUs als Teil von Parabricks beschleunigt und bietet sehr genaue Variantenaufrufe für HiFi-Lesungen. Eine HiFi-Gesamtgenomsequenzierung (Whole-Genome Sequencing, WGS) mit einer 35-fachen Abdeckung dauert 313 Minuten auf einem CPU-Server und nur acht Minuten mit DeepVariant in Parabricks, auf einem Server mit NVIDIA A100 GPUs.
„Mit der Leistungsfähigkeit der HiFi-Sequenzierung konnten unsere Kunden die Genomik transformieren. Revio kann durch die Verwendung von NVIDIA Technik diese Leistungsfähigkeit noch stärker ausschöpfen und so einen hohen Durchsatz und eine hohe Erschwinglichkeit erzielen. In Kombination mit erheblichen Fortschritten im Rechenleistungsbereich wird Revio kurze Laufzeiten und eine 15-fache Steigerung der HiFi-Daten liefern.“
Christian Henry,
CEO und President, PacBio
Image courtesy of PacBio.
Zeitplan der Verbesserungen der post-primären Analyse von PacBio SMRT-Zelldaten. Die Zielverarbeitungszeit für CCS, um mit dem Durchsatz des Geräts Schritt zu halten, betrug 10 Stunden. Da zusätzliche Schritte wie Polieren, Mapping und Marshalling auf der GPU optimiert wurden, konnte genug Zeit gewonnen werden, um die transformatorbasierte DeepConsensus-Analyse hinzuzufügen, welche die HiFi-Lesegenauigkeit verbessert. Das Endergebnis der GPU-optimierten Analysepipeline übertrifft nicht nur die Durchsatzanforderungen für das System, sondern verbessert auch die Gesamtgenauigkeit.
Der verbesserte Durchsatz und die verbesserte Genauigkeit, die mit NVIDIA Technik erzielt werden, haben sich durch die breite Einführung von Revio als wertvoll erwiesen. Seit der Einführung im Oktober 2022 wurden Revios weltweit installiert, darunter an der Mohammed Bin Rashid University of Medicine and Health Sciences (MBRU) in Dubai, um die Erforschung der genomischen Medizin bei seltenen Krankheiten und Krebs voranzutreiben, am Wellcome Sanger Institute in Großbritannien, um das Projekt Darwin Tree of Life anzukurbeln und die Long-Reads in menschlichen Anwendungen zu erhöhen, und am Radboud University Medical Center (UMC), um ihre Sequenzierung auf Tausende von Genomen aufzustocken.
Durch den Übergang von CPU- zu GPU-basierten Workflows entwickelte PacBio ein Instrument mit höherem Durchsatz, das Kosteneffizienz, verbesserte Rechenleistung und KI-gesteuerte Genauigkeitsverbesserungen bietet. Diese Fortschritte sind entscheidend für die Entwicklung der nächsten Generation von Genom-Sequenzierern von PacBio, die sich effizient für die Kundenanforderungen in Forschungs- und medizinischen Anwendungen skalieren lassen.
Wenn Sie mehr über NVIDIA-Lösungen für die Gesundheits- und Biowissenschaften erfahren möchten, kontaktieren Sie uns.