Das Sanger Institute nutzt den NVIDIA DGX-Server für seine Pipeline zur Analyse von Mutationssignaturen von Krebs und steigert die Leistung um das 30-fache.
Sanger Institute
Verbesserung der Leistung
NVIDIA DGX-1™ Server, NVIDIA® NVLink®
Krebs wird durch eine Schädigung der DNA von Zellen verursacht, die als somatische Mutationen bekannt sind. Diese Schäden können das Ergebnis von Verhaltensweisen wie Rauchen und Alkoholkonsum sowie Umweltfaktoren wie ultraviolettes Licht und Strahlenexposition sein.
Schäden an der DNA treten in spezifischen Mustern auf, die als „Mutationssignaturen“ bezeichnet werden und für den Faktor, der den Schaden verursacht hat, einzigartig sind. Obwohl beispielsweise sowohl Tabak als auch ultraviolette Strahlung zu Mutationen und somit zu Krebs führen können, führt Tabakkonsum üblicherweise zu Lungenkrebs, während Hautkrebs meist durch die Schädigung durch ultraviolettes Licht entsteht.
Viele Mutationssignaturen, die mit Krebs zusammenhängen, wurden identifiziert, aber nur bei etwa der Hälfte von ihnen ist die Ursache bekannt. In den letzten Jahren wurden durch die DNA-Analyse von Krebs mehr als 90 verschiedene Mutationssignaturen entdeckt. Die Ursachen vieler dieser Mutationssignaturen, ob sie nun von Umwelt, Lebensgewohnheiten, genetischen oder anderen Faktoren abhängen, sind aber weiterhin unbekannt.
Als Teil des Teams der Cancer Grand Challenges Mutographs, das von Cancer Research UK (CRUK) finanziert wird, nutzt das Wellcome Sanger Institute, eines der weltweit führenden Forschungszentren für die Entdeckung und Erforschung der Genomik, GPU-beschleunigte Modelle für maschinelles Lernen von NVIDIA, um die Auswirkungen natürlich auftretender DNA-Veränderungen auf Krebs zu verstehen.
Der Berechnungsaspekt des Projekts soll die Ursachen großer geografischer und zeitlicher Unterschiede in der Inzidenz von Krebs durch das Studium von Mutationssignaturen aufklären. Die Identifizierung einer Vielzahl von Mutationssignaturen wird das Verständnis dafür, wie sie mit ihren Ursachen zusammenhängen, deutlich vorantreiben und letztlich zu einer präziseren Krebstherapie führen.
Ein Forscher des Wellcome Sanger Institute führt DNA-Sequenzierung durch. Bild mit freundlicher Genehmigung des Wellcome Sanger Institute.
Fälle von Speiseröhren-Plattenepithelkarzinomen sind weltweit sehr unterschiedlich. Bild mit freundlicher Genehmigung des Projektes Mutographs. Datenquelle: GLOBOCAN 2012.
Diese Arbeit erfordert die Lösung eines berechnungsintensiven Problems des maschinellen Lernens, der nichtnegativen Matrixfaktorisierung (NMF). Ludmil Alexandrov entwickelte am Sanger Institute den Ansatz zur Entdeckung von Mutationssignaturen und die zugehörige Software (SigProfiler) und führt diese Arbeit mit seinem Team an der University of California in San Diego (UCSD) weiter. NVIDIA und die Mutographs-Teams der UCSD und des Sanger Institute arbeiten nun gemeinsam daran, die Forschung mit Grafikprozessoren zu beschleunigen.
„Forschungsprojekte wie die Mutographs Grand Challenge sind genau das – große Herausforderungen, um die Grenzen des Erreichbaren zu verschieben“, so Pete Clapham, Leiter der Informatik-Supportgruppe am Wellcome Sanger Institute. „NVIDIA DGX-Systeme bieten enorme Beschleunigung, die es dem Mutographs-Team ermöglicht, die Rechenanforderungen des Projekts nicht nur zu erfüllen, sondern zu übertreffen und früher unerreichbare Ergebnisse effizient zu erreichen.“
GPUs von NVIDIA beschleunigen die wissenschaftliche Anwendung, indem sie die zeitraubendsten Teile des Codes auslagern. Während das Sanger Institute Kosten spart und die Leistung verbessert, indem es die rechenintensive Arbeit auf GPUs ausführt, läuft der Rest der Anwendung immer noch auf der CPU. Für die Forscher läuft die Gesamtanwendung schneller, da die parallele Verarbeitung der GPU die Leistung verbessert.
Im aktuellen Projekt untersuchen Forscher DNA aus den Tumoren von 5.000 Patienten mit fünf Krebsarten: Bauchspeicheldrüsenkrebs, Nierenkrebs, Darmkrebs und zwei Arten von Speiseröhrenkrebs. Fünf synthetische Datenmatritzen, die einen Typ realer Mutationsprofile imitieren, wurden zur Schätzung der Rechenleistung herangezogen. Ein DGX-1-System von NVIDIA führt den NMF-Algorithmus mit den fünf Matrizen aus und die entsprechenden replizierten CPU-Jobs werden in Docker-Containern auf virtuellen Maschinen (VMs) von OpenStack ausgeführt, insbesondere 60 Kerne in Xeon-Skylake-Prozessoren von Intel mit 2,6 GHz und 697,3 GB RAM.
Das NVIDIA DGX-1 ist ein integriertes System für KI mit acht NVIDIA V100 Tensor-Core-GPUs, die mittels NVIDIA NVLink, der leistungsstarken GPU-Vernetzung von NVIDIA, in einem Hybrid-Cube-Mesh-Netzwerk miteinander verbunden sind. Zusammen mit Intel Xeon Dual-Socket-CPUs und vier 100 Gb NVIDIA Mellanox® InfiniBand-Netzwerkkarten bietet das DGX-1 mit einer KI-Leistung von einem PetaFLOPS unerreichte Trainingsleistung. Die Systemsoftware des DGX-1, die leistungsstarken Bibliotheken und das NVLink-Netzwerk sind für die Skalierung von Deep Learning über alle acht V100 Tensor-Core-GPUs ausgelegt und stellen somit eine flexible Plattform mit maximaler Leistung für die Entwicklung und Implementierung von KI-Anwendungen dar, sowohl in der Produktion als auch in der Forschung.
„Forschungsprojekte wie die Mutographs Grand Challenge sind genau das – große Herausforderungen, die die Grenzen des Möglichen verschieben. NVIDIA DGX-Systeme bieten enorme Beschleunigung, die es dem Mutographs-Teams ermöglicht, die Rechenanforderungen des Projekts nicht nur zu erfüllen, sondern zu übertreffen und früher unerreichbare Ergebnisse effizient zu erreichen.“
Pete Clapham, Leiter der Informatik-Unterstützungsgruppe, Wellcome Sanger Institute
Bei der Ausführung der Pipeline-Jobs auf der DGX-1-Plattform wurde im Vergleich zu CPU-Hardware eine durchschnittliche 30-fache Beschleunigung beobachtet. Das DGX-1 lieferte in sechzehn Stunden genaue Ergebnisse bei einer Aufgabe, die bei auf CPU-Hardware durchgeführten Analysen in der Regel zwanzig Tage in Anspruch nahm.
Beschleunigung und Rechenleistung von Grafikprozessoren ermöglichen es Forschern, wissenschaftliche Ergebnisse schneller zu erhalten sowie mehr und komplexere Experimente durchzuführen, als es bisher möglich war. Dies bereitet den Weg für wissenschaftliche Entdeckungen, die die Zukunft der Krebstherapie verändern könnten.