Santé et sciences de la vie

Réduire la duré d'analyse spatiale et monocellulaire de quelques heures à quelques minutes

Les échantillons de poumons humains sont examinés sur l'analyseur 10x Genomics Xenium Analyzer et sont traités sur NVIDIA RAPIDS. Image fournie par TGen.

Objectif

TGen (Translational Genomics Research Institute) est un institut à but non lucratif qui se concentre sur différentes maladies, de la génomique du cancer à la génomique de base des maladies complexes. L'augmentation des données du séquençage multi-omique a créé de nouvelles difficultés de traitement. Grâce à NVIDIA RAPIDS™, TGen a pu réduire les délais d'analyse d'ensembles de données de 4 millions de cellules de 10 heures à trois minutes.

Client

TGen

Utilisation

Outils et techniques de calcul accéléré
Science des données

Produits

NVIDIA RAPIDS
NVIDIA Parabricks
NVIDIA DGX

À propos de TGen

Fondée en 2002, TGen, qui fait partie du centre de recherche City of Hope, se concentre sur différentes maladies allant de la génomique des neurones et du cancer à la génomique de base des maladies complexes. En tant qu'institut autonome à but non lucratif, TGen a pour objectif de faire progresser les soins aux patients et de mener des recherches qui accélèrent les solutions translationnelles grâce à la génomique.

Nicholas Banvoich, PhD et professeur agrégé à la division de génomique intégrée du cancer de TGen, dirige un laboratoire de recherche axé sur les changements moléculaires qui déterminent l'évolution des maladies, notamment l'apparition, la progression, le traitement et les réponses. Le travail de son équipe se concentre principalement sur la fibrose pulmonaire, une maladie pulmonaire non cancéreuse, et sur l’oncologie.

Outre son laboratoire, le professeur Banovich dirige également le centre de TGen pour la multi-omique monocellulaire et spatiale. Comme il l'explique, "mon rôle est de développer ces nouvelles technologies qui nous permettent de faire avancer la multi-omique monocellulaire et spatiale et de travailler avec des partenaires comme NVIDIA sur des approches d'analyse des données computationnelle qui pourraient ensuite être déployées à plus grande échelle ailleurs que dans mon seul laboratoire."

Une meilleure compréhension grâce à des approches unicellulaires

Auparavant, TGen broyait des tissus, extrayait des informations moléculaires de toutes les cellules qu'ils contenaient et examinait ces informations dans leur ensemble. Cela posait toutefois quelques problèmes. "Chaque tissu, qu'il s'agisse de tissu pulmonaire, cardiaque ou cancéreux, n'est pas une entité monolithique. Ces tissus sont vraiment complexes et constitués de différents types de cellules", poursuit Banovich. "Ces types de cellules font des choses différentes concernant la progression, les résultats et la réponse au traitement de la maladie. L'équipe du professeur Banovich a effectué des tests massifs et comparé des échantillons de la maladie à des échantillons de contrôle avant de recourir à des approches unicellulaires. Cependant, cela ne fournissait pas le niveau de granularité nécessaire au niveau cellulaire. Au lieu de cela, ces approches ne fournissaient qu'une moyenne de tout ce qui se passait.

M. Banovich ajoute : "Lorsque nous avons commencé à recourir à des approches unicellulaires, nous avons vraiment pu comparer ce qui était comparable, et nous aurions pu parcourir la liste de chaque type de cellule et déterminer comment la maladie progressait et ce qui se passait dans l'échantillon de contrôle." Les approches unicellulaires permettaient de comprendre les mécanismes moléculaires qui sous-tendent la maladie, mais une autre approche pouvait fournir encore plus d'informations : l'approche spatiale.

Notre tout premier séquençage avec RAPIDS, sans aucune optimisation, nous a pris 10 minutes au lieu de 10 heures. Après quelques réglages supplémentaires, nous avons pu traiter ces données en trois minutes.

Evan Mee, bio-informaticien, division de la génomique intégrée du cancer, TGen

Une explosion de données avec l'omique spatiale

"En passant de l'omique monocellulaire à l'omique spatiale, l'un des plus grands effets immédiats observé est la génération d'une immense quantité de données", explique le professeur Banovich. Pour situer l'importance de l'accroissement du volume des données fournies par l'analyse spatiale, l'équipe du professeur Banvoich a effectué un séquençage d'ARN unicellulaire du poumon pendant environ sept ans et a recueilli des échantillons de plus de 200 personnes. En conséquence, elle a généré des données à partir d'environ 2,5 millions de cellules au total. À titre de comparaison, l'ensemble de l'atlas des cellules pulmonaires humaines représente 4 millions de cellules.

TGen utilise des plateformes spatiales commerciales de pointe, parmi lesquelles Vizgen de MERSCOPE et l'analyseur 10x Genomics Xenium Analyzer. Grâce à ces instruments spatiaux, TGen capture 30 000 à 50 000 cellules par échantillon, et un seul séquençage peut générer des données à partir de plus de 2 millions de cellules. "En deux séquençages sur la plateforme Xenium, nous générons des données sur plus de cellules que l'ensemble du projet d'atlas des cellules pulmonaires humaines (Human Lung Cell Atlas Project), qui a mobilisé 40 chercheurs dans 10 pays", explique M. Banovich. "Il s'agit de quantités de données vraiment énormes."

"Nous avons construit l'analyseur Xenium pour aider les chercheurs de pointe comme ceux de TGen à passer rapidement de l'instrument à la connaissance grâce à nos puissantes capacités d'analyse embarquées, rendues possibles par les GPU NVIDIA. L'association de Xenium et de NVIDIA RAPIDS pous permet d'accélérer encore plus nos workflow et d'effectuer des analyses plus précises afin que les chercheurs puissent passer plus rapidement du séquençage aux résultats et des données à la découverte. Les travaux de TGen repoussent les limites de la science et bouleversent notre compréhension de la santé et des maladies. Le monde ne peut pas se permettre d'attendre ces découvertes", précise Adrian Benjamin, responsable mondial du marketing spatial chez 10x Genomics.

L'analyseur 10x Genomics Xenium Analyzer. Image fournie par 10x Genomics.

Difficultés informatiques liées à l'omique spatiale

Des données relationnelles qui permettent aux chercheurs de déterminer la position des cellules les unes par rapport aux autres aux données d'imagerie qui peuvent être superposées aux données moléculaires, la multi-omique spatiale ouvre de nouvelles possibilités d'approfondissement de notre compréhension. Cependant, ces nouvelles possibilités s'accompagnent de nouvelles difficultés de traitement. Il était crucial pour TGen non seulement de trouver un moyen de résoudre ces difficultés, mais également de tirer le maximum des échantillons reçus dans le cadre d'études cliniques.

Les workflow standard de traitement des données unicellulaires étaient gérables, car l'équipe travaillait de temps en temps sur des ensembles de données volumineux. Lorsque l’équipe est passée à l'omique spatiale, elle a rapidement réalisé que c’était une difficulté plus importante. Les premières séquences effectuées par les instruments d'omique spatiale ont permis d'obtenir 10 millions de cellules. L’instrument Xenium Analyzer, qui s'appuie sur la technologie NVIDIA, accélère l'obtention des résultats en effectuant des analyses embarquées et en utilisant des formats de fichiers communs pouvant être utilisés dans des outils tiers. Cependant, les workflows standard utilisés pour l'analyse tertiaire, l'analyse des composantes principales et l'analyse des grappes ont nécessité 10 à 14 heures de travail.

Pire encore, ces pipelines ne sont pas fixes. Les données passent par les pipelines et les résultats sont ensuite évalués pour déterminer si l'algorithme de mise en grappes a fonctionné comme prévu. Si ce n'est pas le cas, les paramètres sont peaufinés et le processus est répété. Comme l'explique le professeur Banovich, "cela commence à devenir vraiment très prohibitif si chacune de ces itérations prend 10 heures. Nous nous sommes aperçus que, même avec 3 ou 4 millions de cellules, cela prenait trop de temps".

À l'avenir, nous envisageons de générer des ensembles de données comprenant des dizaines de millions ou peut-être même des centaines de millions de cellules. Avec des ensembles de données de cette taille, l’évolutivité n’est possible qu'en utilisant cette implémentation de RAPIDS.

Nicholas Banovich, PhD, professeur agrégé, division de la génomique intégrée du cancer, TGen

Partenariat avec NVIDIA

En conséquence, TGen s’est tourné vers NVIDIA RAPIDS, une suite open source de bibliothèques de science des données et d’IA accélérées par GPU qui améliore les performances sur les pipelines de données. "Nous avons décidé de nous pencher sur l’implémentation de RAPIDS par Scanpy. Notre toute première exécution avec RAPIDS, sans aucune optimisation, nous a pris 10 minutes au lieu de 10 heures", explique Evan Mee, bioinformaticien chez TGen. "Avec quelques réglages supplémentaires, le traitement de ces données ne nous a pris que trois minutes."

Échantillons de poumons humains examinés sur 10x Genomics Xenium Analyzer. Image fournie par TGen.

Les gains de temps se traduisent également par des recherches plus efficaces. Les membres de l'équipe du professeur Banovich n'ont plus besoin d'attendre le contrôle de la qualité ni de longs intervalles entre les analyses de base, ce qui leur permet d'accomplir des tâches plus gratifiantes.

RAPIDS a changé la façon dont Banovich et son équipe effectuent leurs analyses et parviennent à terme à tirer des conclusions. Les possibilités d'itération rapide ouvre des perspectives pour les recherches futures. L'étude de grands ensembles de données permet d'obtenir une vision plus claire dans la recherche translationnelle. Par exemple, les chercheurs doivent observer comment les cellules interagissent au sein de leur environnement local. Avec les types de cellules rares, cela nécessite de sonder un très grand nombre de cellules, ce qui n'aurait pas été possible sans ces plateformes spatiales et les outils d'analyse RAPIDS.

Outre la compréhension des types de cellules rares, il est désormais possible de créer de grands atlas en trois dimensions. Les chercheurs peuvent non seulement comprendre comment les cellules interagissent au niveau local, mais également appréhender la maladie au sein de l’architecture plus étendue du tissu et voir comment elle progresse dans le système, ce qui offre une vision beaucoup plus granulaire de la maladie.

Le professeur Banovich résume l'impact de NVIDIA dans ce prochain chapitre : "Nous envisageons de générer des ensembles de données comportant des dizaines de millions, voire des centaines de millions de cellules. Avec des ensembles de données de cette taille, l'évolutivité n'est possible qu'en utilisant l'implémentation de RAPIDS."

En savoir plus sur les solutions NVIDIA pour la génomique.