Gesundheitswesen und Biowissenschaften

Reduzierung der Einzelzellen- und räumlichen Analyse von Stunden auf Minuten

Menschliche Lungenproben laufen auf dem 10x Genomics Xenium Analyzer und werden über NVIDIA RAPIDS verarbeitet. Bild zur Verfügung gestellt von TGen.

Ziel

Das Translational Genomics Research Institute (TGen) ist ein gemeinnütziges Institut, das sich auf eine Vielzahl von Krankheiten konzentriert, von der Krebsgenomik bis zur grundlegenden Genomik komplexer Krankheiten. Die Zunahme der Daten aus der Multi-Omics-Sequenzierung schuf neue Herausforderungen für die Rechenleistung. Mit NVIDIA RAPIDS™ konnte TGen die Analysezeit für 4 Millionen Zell-Datenmengen von 10 Stunden auf drei Minuten reduzieren.

Kunde

TGen

Anwendungsfall

Accelerated Computing-Tools und -Techniken
Datenwissenschaft

Produkte

NVIDIA RAPIDS
NVIDIA Parabricks
NVIDIA DGX

Über TGen

TGen, Teil des Forschungszentrums City of Hope, wurde 2002 gegründet und konzentriert sich auf eine Vielzahl von Krankheiten, die von Neuro- und Krebsgenomik bis hin zur grundlegenden Genomik komplexer Krankheiten reichen. Als eigenständiges, gemeinnütziges Institut ist es das Ziel von TGen, die Patientenversorgung zu verbessern und Forschung durchzuführen, die translationale Lösungen mit Hilfe der Genomik beschleunigt.

Nicholas Banvoich, PhD und außerordentlicher Professor in der Integrated Cancer Genomics Division bei TGen, leitet ein Forschungslabor, das sich auf die molekularen Veränderungen konzentriert, die die Krankheitsergebnisse beeinflussen – einschließlich Krankheitsbeginn, -progression, -behandlung und -reaktion. Die Arbeit seines Teams konzentriert sich hauptsächlich auf Lungenfibrose, eine nicht krebsbezogene Lungenerkrankung, und Onkologie.

Über sein Labor hinaus leitet Banovich auch das Zentrum für einzelne und räumliche Multi-Omics von TGen. Wie er erklärt: „Meine Rolle ist es, diese neuen Technologien einzubringen, die es uns ermöglichen Einzelzell- und räumliche Multi-Omics voranzutreiben und mit Partnern wie NVIDIA an Rechenansätzen zur Analyse von Daten zusammenzuarbeiten, die dann umfassender und auch außerhalb meines Labors eingesetzt werden können.”

Mehr Einblicke mit Single-Cell-Ansätzen

In der Vergangenheit hat TGen Gewebe zerkleinert, molekulare Informationen aus allen Zellen des Gewebes extrahiert und diese Informationen in ihrer Gesamtheit betrachtet. Dies brachte jedoch einige Herausforderungen mit sich. „Jedes Gewebe – egal ob es sich um die Lunge, das Herz, oder Krebs handelt – besteht nicht aus einem Monolithen. Sie sind sehr komplex und setzen sich aus verschiedenen Zelltypen zusammen“, erklärt Banovich. „Diese Zelltypen tun unterschiedliche Dinge in Bezug auf das Fortschreiten der Krankheit, die Ergebnisse und das Ansprechen auf die Behandlung. Banovichs Team führte Massenuntersuchungen durch und verglich Krankheits- und Kontrollproben, bevor es Einzelzellansätze verwendete. Dies lieferte jedoch nicht die erforderliche Granularität auf zellulärer Ebene. Stattdessen lieferten diese Ansätze nur einen Durchschnittswert für alles, was geschah.

Banovic erklärt: „Als wir anfingen, Einzelzellansätze zu verwenden, konnten wir wirklich Äpfel mit Äpfeln vergleichen, und man konnte die Liste jedes einzelnen Zelltyps durchgehen und sagen, was bei der Krankheit passiert und was bei der Kontrolle.“ Einzelzellansätze ermöglichten das Verständnis der molekularen Grundlagen der Krankheit, aber es gab noch einen weiteren Ansatz, der noch mehr Einblicke gewähren konnte: die räumliche Betrachtung.

Unser allererster Lauf mit RAPIDS, ohne jegliche Optimierung, brachte uns von 10 Stunden auf 10 Minuten. Mit ein wenig zusätzlicher Abstimmung waren wir bei drei Minuten, um diese Daten zu verarbeiten.

Evan Mee, Bioinformatiker, Abteilung für integrierte Krebsgenomik, TGen

Eine Explosion von Daten mit räumlichen Omics

„Wenn man von einer einzelnen Zelle in eine räumliche Zelle übergeht, ist eine der größten, unmittelbaren Auswirkungen, dass man immense Datenmengen generiert“, erklärt Banovich. Um einen Kontext zu geben, wie groß die räumliche Datenmenge ist, hat Banvoichs Team die einzelne Zell-RNA-Sequenzierung in der Lunge etwa sieben Jahre lang durchgeführt und Proben von über 200 Personen gesammelt. Als Ergebnis haben sie Daten von rund 2,5 Millionen Zellen im Aggregat generiert. Für einen noch breiteren Kontext besteht der gesamte Human Lung Cell Atlas aus 4 Millionen Zellen.

TGen verwendet führende kommerzielle räumliche Plattformen, einschließlich Vizgen MERSCOPE und 10x Genomics Xenium Analyzer. Mit diesen räumlichen Instrumenten erfasst TGen 30.000–50.000 Zellen pro Probe, und ein einzelner Lauf kann Daten von über 2 Millionen Zellen generieren. „In zwei Läufen auf der Xenium-Plattform generieren wir im Grunde Daten von mehr Zellen als das gesamte Human Lung Cell Atlas-Projekt, das 49 Forscher und 10 Länder umfasste“, erläutert Banovich.

„Es handelt sich um wirklich riesige Datenmengen.“ „Wir haben den Xenium Analyzer entwickelt, um innovativen Forschern wie denen bei TGen zu helfen, mithilfe unserer leistungsstarken Onboard-Analyse auf Basis von NVIDIA GPUs schnell vom Instrument zur Erkenntnis zu kommen. Die Kombination von Xenium mit NVIDIA RAPIDS beschleunigt unsere Best-in-Class-Workflows weiter und ermöglicht Forschungsteams präzisere Analysen, damit sie noch schneller vom Lauf zum Ergebnis und von Daten zur Entdeckung kommen. Die Arbeit von TGen weitet die Grenzen der Wissenschaft aus und transformiert unser Verständnis von Gesundheit und Erkrankungen. Die Welt kann es sich nicht leisten, lange auf diese Entdeckungen warten zu müssen“, so Adrian Benjamin, Global Spatial Marketing-Leiter bei 10x Genomics.

Der 10x Genomics Xenium Analyzer. Bild zur Verfügung gestellt von 10x Genomics.

Herausforderungen hinsichtlich der Rechenleistung bei Spatial Omics

Von relationalen Daten, die es Forschern ermöglichen, zu sehen, wo Zellen in Bezug zueinander stehen, bis hin zu bildgebenden Daten, die zur Überlagerung mit molekularen Daten verwendet werden können, bietet räumliche Multi-Omics neue Möglichkeiten für ein tieferes Verständnis. Diese neuen Funktionen bringen jedoch auch neue Rechenherausforderungen mit sich. Es war für TGen von entscheidender Bedeutung, nicht nur einen Weg zu finden, diese Herausforderungen zu meistern, sondern auch sicherzustellen, dass sie das Beste aus den aus klinischen Studien erhaltenen Proben herausholen können.

Die Standard-Workflows für die Verarbeitung von Einzelzellendaten waren überschaubar, da das Team selten mit großen Datenmengen arbeitete. Als das Team auf räumliche Daten umstellte, erkannte es schnell, dass dies eine größere Herausforderung war. Die ersten paar Durchläufe von räumlichen Omics-Instrumenten führten zu bis zu 10 Millionen Zellen. Das Xenium Analyzer-Instrument mit NVIDIA Technik beschleunigt die Zeit zu den Ergebnissen, indem es eine On-Board-Analyse durchführt und gängige Dateiformate für die Verwendung in Drittanbieter-Tools gebräuchlichen Dateiformaten ausgab. Die für tertiäre und Hauptkomponenten sowie Clustering-Analyse verwendeten Standard-Workflows erforderten aber 10 bis 14 Stunden. 

Was die Sache noch verschlimmerte war, dass diese Pipelines nicht fix sind. Daten werden durch Pipelines geleitet und Ergebnisse werden dann daraufhin beurteilt, ob der Clustering-Algorithmus wie erwartet funktioniert hat. Falls nicht, werden die Parameter angepasst und der Prozess wird wiederholt. Banovich erläutert: „Es wird immer unmöglicher, wenn jede dieser Iterationen 10 Stunden dauert. Wir waren mit der Tatsache konfrontiert, dass der Vorgang selbst bei 3 oder 4 Millionen Zellen zu lange dauerte.”

Wenn wir in die Zukunft blicken, sprechen wir über die Erzeugung von Datenmengen mit Dutzenden oder sogar Hunderten von Millionen Zellen. Die Skalierbarkeit über Datenmengen dieser Größe ist nur möglich, weil wir diese RAPIDS-Implementierung verwenden können.

Nicholas Banovich, PhD, Associate Professor, Integrated Cancer Genomics Division, TGen

Partnerschaft mit NVIDIA

Als Ergebnis wandte sich TGen an NVIDIA RAPIDS, eine Open-Source-Suite von GPU-beschleunigten Datenwissenschafts- und KI-Bibliotheken, die die Leistung über Datenpipelines hinweg verbessert. „Wir haben uns entschieden, uns die RAPIDS-Implementierung von Scanpy anzusehen. Unser erster erster Lauf mit RAPIDS, ohne jegliche Optimierung, dauerte von 10 Stunden bis 10 Minuten“, erklärt Evan Mee, Bioinformatiker bei TGen. „Mit ein wenig zusätzlicher Abstimmung waren es nur drei Minuten für die Verarbeitung dieser Daten.“

Menschliche Lungenproben laufen auf dem 10x Genomics Xenium Analyzer. Bild zur Verfügung gestellt von TGen.

Die Zeitersparnis schlägt sich außerdem auch in einer effektiveren Forschung nieder. Anstatt auf die Qualitätskontrolle und lange Intervalle zwischen den grundlegenden Analysen zu warten, können Banovichs Teammitglieder eine erfüllendere Arbeit leisten.

RAPIDS hat die Art und Weise verändert wie Banovich und sein Team Analysen durchführen und letztlich zu Schlussfolgerungen gelangen. Die Möglichkeit, schnell zu iterieren, eröffnet Möglichkeiten für die künftige Forschung. Durch die Untersuchung großer Datenmengen ergibt sich ein klareres Bild in der translationalen Forschung. So müssen die Forscher beispielsweise beobachten, wie Zellen in ihrer lokalen Umgebung interagieren. Bei seltenen Zelltypen erfordert dies die Untersuchung einer enormen Anzahl von Zellen, was ohne diese räumlichen Plattformen und RAPIDS-Analysen nicht möglich gewesen wäre.

Neben dem Verständnis seltener Zelltypen ist nun auch die Erstellung großer dreidimensionaler Atlanten möglich. Die Forscher können nicht nur verstehen, wie Zellen auf lokaler Ebenen interagieren, sondern auch, wie die Krankheit in der größeren Architektur des Gewebes abläuft und wie sie im System fortschreitet.

Banovich fasst den Einfluss von NVIDIA auf dieses nächste Kapitel zusammen: „Wenn wir in die Zukunft blicken, sprechen wir über die Erzeugung von Datenmengen mit Dutzenden oder sogar Hunderten von Millionen Zellen. Die Skalierbarkeit über Datenmengen dieser Größe ist nur möglich, weil wir diese RAPIDS-Implementierung verwenden können.

Erfahren Sie mehr über NVIDIA-Lösungen für die Genomik.