Santé et Sciences de la vie

Améliorer la précision et la vitesse du séquençage à longue lecture

Objectif

Augmenter le débit et la précision des instruments de nouvelle génération tout en respectant les contraintes de puissance, d'espace et de coût.

Client

PacBio

Utilisation

Edge Computing

Produits

NVIDIA Parabricks
Systèmes certifiés NVIDIA

Améliorer la vitesse et de la précision des instruments grâce au calcul accéléré NVIDIA

Le séquençage de longs fragments d'ADN, connu sous le nom de séquençage à longue lecture, a été présenté comme méthode de l'année dans le numéro de Nature Methods de janvier 2023, et PacBio y a été présenté comme leader de premier plan dans ce domaine. Depuis sa création en 2004, PacBio a développé une présence mondiale considérable avec ses systèmes de séquençage avancés déployés dans plus de 40 pays, totalisant plus de 1 000 unités vendues. Le portefeuille de propriété intellectuelle de la société comprend plus de 400 brevets américains délivrés, et son influence et sa pertinence au sein de la communauté scientifique se manifestent par plus de 9 000 citations dans diverses publications.

PacBio développe des solutions de séquençage avancées pour aider les scientifiques et les chercheurs cliniques à résoudre des problèmes de génétique complexes dans les domaines du séquençage de la lignée germinale humaine, des sciences végétales et animales, des maladies infectieuses, de l'oncologie et d'autres applications émergentes. Leur technologie brevetée de séquençage à lecture longue génère des lectures d'une longueur allant jusqu'à 20 kilobases, ce qui est nettement supérieur à la longueur de lecture typique de moins de 300 bases produite par les méthodes de séquençage à lecture courte. Cela permet une cartographie plus complète et plus précise des régions complexes du génome qui peuvent être négligées par le séquençage à lecture courte, ce qui contribue à faire progresser la recherche dans divers domaines, notamment la génétique des maladies et la biologie de l'évolution.

Highlights

  • PacBio a intégré le GPU NVIDIA A100 Tensor Core dans son système Revio pour accélérer la vitesse et la précision du séquençage à longue lecture, tout en minimisant les coûts.
  • Puissance de calcul : les GPU NVIDIA A100 offrent à Revio une puissance informatique 20 fois supérieure à celle de Sequel IIe de PacBio.
  • Deep Learning : PacBio a intégré des GPU pour l'appel de base, a augmenté le débit avec le séquençage par consensus circulaire (CCS) et a amélioré la précision en utilisant le modèle DeepConsensus.
  • Facilité d'utilisation : Revio offre une réduction de 50 % des consommables ainsi qu'une capacité de chargement à l'avance.
  • Accessibilité : Revio séquence un génome humain HiFi pour moins de 1 000 €, charge les instruments en moins d'une minute et réduit la taille du fichier de plus de 50 %.
  • Débit élevé : Revio peut séquencer 1 300 génomes humains entiers chaque année à une couverture de 30x.

Image courtesy of PacBio.
PacBio’s Revio long-read sequencing system.

Système Revio de PacBio : séquençage à lecture longue accéléré par GPU

La précision, la qualité et la couverture des génomes constituent la pierre angulaire de la technologie de séquençage à lecture longue de PacBio. Cela se manifeste à travers son séquençage à lecture longue haute fidélité (HiFi), un outil puissant utilisé pour étudier de grandes caractéristiques génomiques ou transcriptomiques au niveau d'une seule molécule d'ADN ou d'ARN. Le processus d'appel des bases est un aspect essentiel de la génération de données à lecture longue. Ce processus est crucial pour déterminer les séquences de nucléotides de longues molécules d'ADN complexes. Cependant, ceci nécessite des ressources informatiques considérables, étant donné la nécessité de générer une séquence de consensus pour chaque molécule, et d'exécuter ensuite ce processus pour des millions de molécules.

Le séquenceur à lecture longue Sequel IIe de PacBio a été conçu avec des calculs basés sur le CPU. Bien que fonctionnel, il a atteint un seuil de performance qui a limité son utilisation optimale et, par conséquent, son utilité pour les clients commerciaux. Pour remédier à cette limitation, PacBio a introduit le système Revio équipé de GPU NVIDIA A100. Cette avancée a permis une augmentation significative de la puissance de calcul avec le même nombre d'appareils. Grâce à cette transition vers les GPU NVIDIA, conjuguée à la technologie NVIDIA® CUDA® pour l'optimisation du code, PacBio a pu accélérer l'appel de base, ce qui a permis d'augmenter le débit et l'efficacité du processus de séquençage. 

Ces technologies ont également permis d'accélérer considérablement le séquençage par consensus circulaire (CCS) sur le système Revio. Le séquençage répété de molécules d'ADN circularisées pour générer des lectures à haute précision nécessitait une puissance de traitement et un temps considérables, ce qui limitait globalement le débit et l'efficacité du séquenceur. Grâce à Revio et aux GPU de NVIDIA, PacBio a pu réduire la durée du processus de CCS en passant de plus de 15 heures à 2,5 heures, ce qui se traduit par un gain de temps, une meilleure productivité et une viabilité commerciale accrue du séquençage de Revio pour les clients.

Ajouter un modèle de Deep Learning pour améliorer la précision

Suite à l’optimisation par GPU de CCS, l’analyse a été suffisamment rapide pour incorporer des workflows supplémentaires tout en maintenant le débit de l’instrument. Cela a donné à PacBio l’opportunité de mettre en œuvre des workflows accélérés par GPU pour améliorer davantage la précision de la lecture longue, sans investissement matériel supplémentaire.

Le modèle DeepConsensus, un transformateur pour encodeur uniquement, a été implémenté et optimisé sur les GPU A100 de façon à créer une solution robuste dans l’instrument. Cela a permis de réduire le temps de lecture HiFi de haute précision en passant de 30 heures sur le Sequel IIe basé sur le CPU à 24 heures sur le Revio. Grâce à l’accélération du GPU et aux workflows ajoutés à l’instrument, PacBio atteint une précision de 99,9 % pour le séquençage HiFi dans Revio et peut monter jusqu’à 1 300 génomes humains par an. Revio est le premier séquenceur de PacBio à être équipé de GPU NVIDIA, ce qui multiplie par 20 la puissance de calcul par rapport au Sequel IIe.

Les clients utilisant Revio peuvent en outre utiliser la suite NVIDIA Parabicks® d'outils d'analyse génomique standard et Deep Learning accélérés par le GPU pour l'alignement et l'appel de variants. DeepVariant a été accéléré sur des GPU dans le cadre de Parabricks et propose des appels de variants très précis pour les lectures HiFi. Un séquençage du génome complet HiFi couverture 35x prend 313 minutes sur un serveur CPU mais seulement huit minutes avec DeepVariant dans Parabricks sur un serveur équipé de GPU NVIDIA A100.

"Nos clients ont transformé la génomique grâce à la puissance du séquençage HiFi. Revio, qui utilise les technologies NVIDIA, libère encore plus cette puissance en y adjoignant un débit élevé et un prix abordable. Associé à des avancées considérables en matière de calcul, Revio permettra de réduire les temps d'exécution et de multiplier par 15 les données HiFi."

Christian Henry
PDG et président, PacBio

Image courtesy of PacBio.

Chronologie des améliorations apportées à l’analyse post-primaire des données cellulaires de PacBio SMRT. Le temps de traitement visé par le CCS pour suivre le débit de l'instrument était de 10 heures. Au fur et à mesure que des étapes supplémentaires telles que le polissage, la cartographie et le marshaling étaient optimisées sur le GPU, il a été possible de gagner suffisamment de temps pour ajouter l'analyse DeepConsensus basée sur transformateur afin d'améliorer la précision de la lecture HiFi. Le résultat final du pipeline d'analyse optimisé pour le GPU a dépassé les exigences de débit du système et a également amélioré la précision globale.

Revio fait progresser la génomique dans le monde entier grâce aux technologies NVIDIA

L’amélioration du débit et de la précision obtenus avec les technologies NVIDIA s’est avérée utile, comme en témoigne l’adoption de Revio.  Depuis son lancement en octobre 2022, des Revio ont été installés dans le monde entier, notamment à la Mohammed Bin Rashid University of Medicine and Health Sciences (MBRU) de Dubaï pour favoriser les découvertes en médecine génomique dans le domaine des maladies rares et du cancer, au Wellcome Sanger Institute au Royaume-Uni pour accélérer le projet Darwin Tree of Life et augmenter les lectures longues dans les applications humaines, et au Radboud University Medical Center (UMC) pour porter leur séquençage à des milliers de génomes.

Grâce à la transition des workflows du CPU au GPU, PacBio a développé un instrument plus performant qui offre un excellent rendement, une puissance de calcul accrue et des améliorations de la précision basées sur l'IA. Ces avancées sont essentielles pour la construction de sa prochaine génération de séquenceurs génomiques capables de s'adapter efficacement aux demandes des clients dans les domaines de la recherche et des applications médicales.

Vous voulez en savoir plus ?

Pour en savoir plus sur les solutions de NVIDIA pour le secteur de la santé et des sciences de la vie, n'hésitez pas à nous contacter.