Sanger Institute utilise le serveur NVIDIA DGX pour alimenter son pipeline d’analyse de signature de cancer mutationnel, obtenant ainsi des performances qui sont 30 fois meilleures.
Sanger Institute
Amélioration des performances
Serveur NVIDIA DGX-1™, NVIDIA® NVLink®
Le cancer est causé par des dommages à l’ADN des cellules (ou la mutation somatique). Ces dommages peuvent être la conséquence de comportements tels que le tabagisme et la consommation d’alcool, ainsi que de facteurs environnementaux tels que la lumière ultraviolette et l’exposition aux rayonnements.
Les dommages à l’ADN se produisent dans des modèles spécifiques appelés « signatures mutationnelles », qui sont uniques au facteur qui a causé les dommages. Par exemple, bien que le tabac et le rayonnement ultraviolet provoquent tous deux le cancer en produisant des mutations, la signature causée par le tabac se trouve dans le cancer du poumon, tandis que la signature de l’exposition à la lumière ultraviolette se trouve dans le cancer de la peau.
De nombreuses signatures mutationnelles associées au cancer ont été identifiées, mais seulement la moitié d’entre elles ont des causes connues. Ces dernières années, l’analyse de l’ADN des cancers a conduit à la découverte de plus de quatre-vingt-dix différentes signatures mutationnelles. Cependant, les causes potentielles liées à l’environnement, au mode de vie, à la génétique ou d’autres causes potentielles de bon nombre de ces signatures mutationnelles restent incertaines.
En tant qu’unité de l’équipe Cancer Grand Challenges Mutographs financée par Cancer Research UK (CRUK), l’Institut Wellcome Sanger, l’un des centres de découverte et de compréhension génomiques les plus importants au monde, utilise des modèles d’apprentissage automatique accélérés par NVIDIA, pour mieux comprendre comment les changements d’ADN naturels affectent le cancer.
L’objectif de la composante computationnelle du projet est d’élucider les causes des grandes différences géographiques et temporelles dans l’incidence du cancer grâce à l’étude des signatures mutationnelles. L’identification d’un ensemble plus large de signatures mutationnelles sera une véritable percée dans la compréhension des corrélations qui existent entre elles et leurs causes, ce qui aboutira à des traitements plus précis
Les chercheurs du Wellcome Sanger Institute pratiquent le séquençage de l’ADN. Image fournie par le Wellcome Sanger Institute.
Les cas de carcinome épidermoïde liés au cancer de l’œsophage peuvent grandement varier à travers le monde. Image fournie par Mutographs Project. Source des données : GLOBOCAN 2012.
Ce travail nécessite la résolution d’un problème de machine learning à forte intensité de calcul appelé factorisation matricielle non négative (NMF). Ludmil Alexandrov a développé cette approche pour détecter les signatures mutationelles, de même que le logiciel (SigProfiler), alors qu’il travaillait à l’Institut Sanger et continue de s’appuyer sur ces travaux avec son équipe de l’Université de Californie à San Diego (UCSD). Ensemble, NVIDIA et les équipes de Mutographs de l’UCSD et de l’Institut Sanger se sont associés pour utiliser les GPU afin d’accélérer cette recherche.
« Les projets de recherche tels que le Mutographs Grand Challenge sont des défis de taille qui repoussent les limites de ce qui est possible », a déclaré Pete Clapham, chef du groupe de soutien informatique au Wellcome Sanger Institute. « Les systèmes NVIDIA DGX fournissent une accélération considérable qui permet à l’équipe Mutographs non seulement de répondre aux demandes de calcul du projet, mais de dépasser ces limites en fournissant avec efficacité des résultats jusqu’alors impossibles. »
Les GPU NVIDIA accélèrent l’application scientifique en déchargeant les parties les plus fastidieuses du code. Bien que le Sanger Institute réduit les coûts et améliore les performances en exécutant des travaux intensifs sur les GPU, le reste de l’application fonctionne toujours sur le CPU. Du point de vue des chercheurs, l’application globale fonctionne plus rapidement, car elle utilise la puissance de traitement parallèle du GPU pour améliorer les performances.
Dans le présent projet, les chercheurs étudient l’ADN des tumeurs de 5 000 patients atteints de cinq types de cancers : du pancréas, du rein, colorectal et de deux types de cancer de l’œsophage. Cinq matrices de données de synthèse qui reproduisent un type de profil mutationnel réel ont été utilisées pour estimer les performances de calcul. Un système NVIDIA DGX-1 exécute alors l’algorithme NMF sur les cinq matrices, tandis que les tâches correspondantes de CPU qui ont été répliquées sont exécutées dans des conteneurs de dockers sur des machines virtuelles (VM) OpenStack, plus précisément des machines virtuelles à 60 cœurs dans des processeurs Intel Xeon Skylake avec des processeurs de 2,6 GHz et 6 Go de mémoire vive (RAM).
Le NVIDIA DGX-1 est un système intégré pour l’IA avec un GPU NVIDIA V100 à huit cœurs Tensors connectés via NVIDIA NVLink, l’interconnexion GPU haut débit de NVIDIA, dans un réseau hybrique cube-MESH. Couplé à des CPU Intel Xeon bi-socket et à quatre cartes d’interface réseau NVIDIA Mellanox® InfiniBand de 100 Go chacune, le DGX-1 délivre une puissance d’IA d’un petaFLOPS, pour des performances d’entraînement sans précédent. Le logiciel système DGX-1, les bibliothèques performantes et le réseau NVLink sont conçus pour faire évoluer le deep learning sur les huit cœurs Tensors du GPU V100, afin de fournir une plateforme flexible aux performances optimales pour le développement et le déploiement d’applications d’IA dans les environnements de production et de recherche.
« Les projets de recherche tels que le Mutographs Grand Challenge sont des défis de taille qui repoussent les limites du possible. Les systèmes NVIDIA DGX offrent une accélération considérable qui permet à l’équipe Mutographs non seulement de répondre aux exigences de calcul du projet, mais de dépasser ces limites en fournissant efficacement des résultats jusqu’alors impossibles. »
Pete Clapham, Responsable du pôle informatique au Wellcome Sanger Institute
On a observé que les tâches de pipeline sont en moyenne 30 fois plus rapides lorsqu’elles ont été exécutées sur la plate-forme DGX-1 en comparaison à leur temps d’exécution sur le matériel CPU. Le DGX-1 a fourni des résultats précis en seize heures pour un travail équivalent à celui fourni par le CPU en vingt jours en moyenne en analyse réelle.
L’accélération et la puissance de calcul des GPU permettent aux chercheurs d’obtenir des résultats scientifiques plus rapidement, de mener un plus grand nombre d’expériences et d’exécuter des expériences plus complexes que ce qui était possible jusqu’ici, ouvrant la voie à des découvertes scientifiques qui pourraient transformer l’avenir des traitements contre le cancer.