Santé et sciences de la vie

Un nouveau langage moléculaire pour l’IA générative axée sur la découverte de médicaments à petites molécules

Objectif

En utilisant des volumes énormes de données expérimentales et précises, Terray Therapeutics s’appuie sur NVIDIA DGX™ Cloud pour former des modèles de base pour la chimie et l’IA générative afin de concevoir de petites molécules.

Client

Terray Therapeutics

Utilisation

IA générative

Produits

Plateforme NVIDIA Base Command
, NVIDIA DGX Cloud
, NVIDIA AI Enterprise

L’espace des composés chimiques est fonctionnellement infini, avec plus de 1060 – ou novemdecillion – de molécules de type médicament. L’objectif de la découverte de médicaments à petites molécules est d’explorer ce vaste espace chimique à la recherche d’une poignée de molécules qui répondent à un problème d’optimisation multi-paramètres. Les programmes de découverte de médicaments typiques sont très inefficaces et fondamentalement limités, car ils ne peuvent explorer que quelques dizaines, voire quelques centaines de composés par semaine. L’objectif de

Terray Therapeutics est de changer la façon dont les médicaments à petites molécules sont découverts et développées. La plate-forme de la société allie de manière unique l’expérimentation et le calcul pour répondre aux objectifs de l’IA générative en ce qui concerne la découverte de médicaments à petites molécules, notamment trouver des solutions aux défis thérapeutiques les plus difficiles. Terray est persuadé que des données échelonnées de haute qualité sont la réponse pour débloquer l’IA générative pour les petites molécules et que toutes les démarches entreprises par l’entreprise s’inscrivent dans une approche itérative, la production d’une quantité colossale de données précises et spéciales permettant l’optimisation générative des petites molécules. En mettant l’accent aussi bien sur les nouvelles sciences de labratoire que sur l’IA, Terray améliore la santé humaine en transformant positivement la vitesse de production, les coûts, et le taux de réussite du développement des médicaments àpetites molécules.

Terray Therapeutics

Image courtesy of Terray Therapeutics

Expansion du développement de modèles afin d’exploiter les milliards de points de données

La plateforme Terray évalue des centaines de millions d’interactions entre les petites molécules et les cibles biologiques chaque jour, avec une base de données sans cesse croissante de 50 milliards d’évaluations biophysiques expérimentales. Avec tant de précision, il est possible de trouver des solutions novatrices, de faire un ciblage parallèle et de faire des avancées rapides dans nos initiatives hit-to-lead (H2L) avec des millions de molécules.

La première étape de l’utilisation de l’IA générative dans le cadre de la découverte de médicaments consiste à disposer d’une grande quantité de données expérimentales précises, y compris de plusieurs prémisses prometteurs pour la conception de médicaments. Mais la capacité d'évaluation sur la base de ces données pour concevoir des molécules exploitables est tout aussi importante. Afin de faciliter la transition entre le langage des molécules et le langage infomatique (et vice versa), Terray a développé COATI, un modèle encodeur-décodeur multimodal pour l’espace chimique. Le modèle convertit les structures chimiques en représentations numériques utiles pour traiter les données plus efficacement avec l’IA. La représentation numérique d’une molécule peut être utilisée comme comme entrée pour « décoder », ou générer, des molécules ayant les propriétés souhaitées, ce qui permet une conception moléculaire générative.

Lorsque Terray a commencé à développer COATI, elle utilisait un mélange de systèmes, y compris des serveurs sur site basés sur le GPU et des services traditionnels basés sur le Cloud. Au départ, cette infrastructure était fonctionnelle, jusqu’à ce que les modèles soient mis à l’échelle. À mesure que les modèles devenaient plus grands et plus sophistiqués, le provisionnement et la configuration des cycles d’entraînement distribués devenaient difficiles.

« Je passais des heures à concevoir des cycles d’entraînement, et c’était particulièrement fastidieux », déclare Edward Williams, Ingénieur en machine learning chez Terray. « Pour les cycles d’entraînement distribués, nous utilisons torchrun. À mesure que nous mettions nos modèles à l’échelle, allouer des ressources et veiller à la synchronisation du code d’entraînement sur tous les nœuds était de plus en plus difficile. Rechercher et traiter les erreurs était tout aussi fastidieux. Pour chaque défaillance, je le découvrais après coup et pas instantanément. Le temps qu’il me fallait pour simplement définir les cycles d’entraînement, la propagation manuelle des changements sur tous les nœuds et l’incapcité de savoir si je pouvais obtenir un nœud supplémentaire sur lequel expérimenter limitaient l’expérimentation et empêchaient notre équipe de faire évoluer nos travaux de recherche »

  • La découverte de médicaments à petites molécules implique l’exploration d’un espace chimique fonctionnellement infini, avec des approches typiques qui ne peuvent explorer que quelques dizaines à quelques centaines de composés par semaine.
  • Terray Therapeutics est pionnier de l’IA générative pour la découverte de médicaments à petites molécules, basée sur des données de haute qualité et à grande échelle et un mélange d’expérimentation et de calculs.
  • Terray a développé le COATI, un modèle de base pour la chimie pré-entraînée sur un jeu de données de centaines de millions de petites molécules. COATI traduit les molécules en représentations mathématiques, permettant à l’IA générative de concevoir de nouvelles molécules optimisées.
  • NVIDIA DGX Cloud a considérablement amélioré le processus de développement COATI, faisant passer l’entraînement du modèle d’une semaine à une journée, et permettant une expérimentation plus efficace avec des GPU dédiés et une mise à l’échelle des ressources à la demande.
  • Grâce à la plate-forme NVIDIA Base Command™, Terray a rendu l’utilisation de l’infrastructure quatre fois meilleure grâce à la facilité de configuration des charges de travail et à l’optimisation des modèles.

Image courtesy of Terray Therapeutics

NVIDIA DGX Cloud : plateforme d’entraînement multi-nœuds dédiée à l’IA générative

« Parce que notre objectif était l’amélioration continue de notre représentation inversible de l’espace chimique, nous avions besoin d’une plate-forme qui permettrait une expérimentation rapide et une gestion facile », a déclaré John Parkhill, Responsable du machine learning chez Terray. « DGX Cloud nous a offert une solution qui fonctionnait de manière transparente avec la facilité et la simplicité du cloud. Son réseau à haute vitesse, conçu pour la formation multi-nœuds, était particulièrement indispensable pour nos besoins. Nous traitons des ensembles de données en téraoctets, voire plus. Nous avons par conséquent besoin de ressources de calcul importantes pour former nos

modèles efficacement. » « Par ailleurs, la capacité de mener rapidement des expériences d’essais et d’erreurs est très précieuse dans notre recherche de développement de modèles, car l’identification des hyperparamètres les plus efficaces est souvent une tâche ardue. L’exécution rapide des tâches sur DGX Cloud nous a permis d’identifier rapidement les défaillances et d’apporter les ajustements nécessaires aux modèles. Je pouvais par exemple effectuer de nombreuses études d’ablation, telles que la désactivation des fonctionnalités du modèle, afin de déterminser si, par exemple, l’altération des éléments du tokenizer du transformateur avait une incidence ou non », déclare Williams. « Avec notre processus de configuration des tâches d’entraînement, nous sommes passés de la diificulté à entrer les codes dans des machines gérées à distance chargées de la synchronisation, à un simple clic sur la commande « exécuter » sur DGX Cloud. Nous n’avons pas eu à modifier énormément notre code. Grâce à Base Command Platform, l’orchestration des tâches d’entraînement multi-nœuds est devenue quasiment automatique. Cela nous a permis de réaliser une mise à l’échelle qui aurait été impossible en d’autres circonstances ». Avoir une allocation fixe de nœuds sur DGX Cloud a également permis de faire plus d’économies. « Il est assez pénible de demander en permanence des instances GPU aux services de cloud conventionnels, alors qu’ils semblent incapables de les fournir, car si j’ai besoin d’un nouveau nœud pour mener une expérience, impossible de dire qyand je l’obtiendrai. Avec DGX Cloud en revanche, je n’ai pas de souci à me faire de ce côté là », a ajouté Williams.

« En tant que data scientist, je ne vise plus une petite station de travail GPU, mais tout l’espace cloud de Terray. DGX Cloud avec Base Command Platform me permet de passer d’un simple nœud à un cluster de 32 GPU avec aise en appuyant simplement sur une touche », a ajouté M. Parkhill. Avec DGX Cloud, nous avons le niveau d’abstrraction indispensable à nos développeurs pour se focaliser sur l’innovation et non sur l’infrastructure.

Terray a une approche basé sur une solution hybride lui permettant de d’entraîner et de construire ses modèles sur DGX Cloud et de déployer et exécuter l’inférence sur leur cluster sur site grâce aux GPU NVIDIA RTX™ A6000

. À mesure que la charge de travail s’intensifie, DGX Cloud assure l’élasticité et la liquidité des ressources. « Les spécialistes de l’IA de Nont grandement contribué à notre réussité », ajoute Williams. « Nous avions un expert à dispositon chargé d’analyser nos journaux pour s’assurer que tout fonctionnait correctement et identifier les problèmes.

En identifiant des optimisations simples auxuqelles nous n’avions pas pensé dans PyTorch et CUDA®, ils ont grandement amélioré l’efficacité de nos tâches. En outre, ils nous ont accompagnés dans l’écriture de scripts fournissant des informations précieuses sur les données télémétriques, ce qui nous a permis de surveiller l’activité de la mémoire et d’améliorer nos performances.

L’assistance des spécialistes de l’IA de NVIDIA nos a permis de passer de l’optimisation des processus à l’expérimentation, car il s’agit avant tout d’un projet R&D. »

« Avec notre processus de configuration des tâches d’entraînement, nous sommes passés de la difficulté à entrer les codes dans des machines gérées à distance chargées de la synchronisation, à un simple clic sur la commande « exécuter » sur DGX Cloud

Edward Williams
Ingénieur en machine learning, Terray Therapeutics

« En tant que data scientist, je ne vise plus une petite station de travail GPU, mais tout l’espace cloud de Terray. DGX Cloud avec Base Command Platform me permet de passer d’un simple nœud à un cluster de 32 GPU avec aise en appuyant simplement sur une touche »

John Parkhill,
Responsable du machine leaning chez Terray Therapeutics

Expérimentation et optimisation des modèles avec une utilisation des ressources quatre fois plus intensive

La recherche sur les petites molécules est un processus itératif qui implique le cycle continu de conception, de fabrication, de test, d’analyse et de raffinage des composés pour obtenir les propriétés désirées. Parkhill a déclaré : « La simplicité d’utilisation de DGX Cloud a permis de réaliser des performances exceptionnelles et nous a aidés à itérer plus rapidement dans l’évaluation des hyperparamètres pour COATI, ce qui nous a permis d’atteindre une utilisation quatre fois plus intensive qu’avec les autres services Cloud. Cela nous prenait une semaine pour entraîner un modèle, et nous le faisions désormais en une journée. »

Parkhill a ajouté : « Nous sommes maintenant en mesure d’explorer facilement le vaste espace chimique pour trouver des molécules rares avec des propriétés désirées, comme la sélectivité et la puissance. Nous pouvons également instruire le modèle pour générer des candidats avec des propriétés spécifiques pour l’analyse ou découvrir des molécules entièrement nouvelles qui ressemblent à des molécules connues, mais ont des caractéristiques plus optimales ».

Trouver de nouvelles molécules qui ressemblent à des molécules synthétisées est important, car cela sert de point de départ précieux, s’appuyant sur les données existantes et la compréhension des propriétés chimiques. Cela permet aux chercheurs d’anticiper sur les comportements, mais également sur l’efficacité et la sécurité avec plus de précision, accélerant ainsi le processus de développement des médicaments

. « Notre modèle s'améliore à mesure que nous générons de plus en plus de moécules en laboratoire et procédons à un entraînement itératif sur DGX Cloud. »

« La simplicité d’utilisation de DGX Cloud a permis de réaliser des performances exceptionnelles et nous a permis d’atteindre une utilisation quatre fois plus intensive qu’avec les autres services Cloud. »

John Parkhill,
Responsable du machine leaning chez Terray Therapeutics

Regarder vers l’avenir

Le domaine émergent de la conception et de l’optimisation moléculaire générative a le potentiel d’améliorer considérablement le taux de succès clinique du développement de petites molécules. Les travaux pionniers de Terray ouvrent la voie à l’adoption à l’échelle de l’industrie de leur modèle révolutionnaire. « La clé pour une IA générative impactante réside dans l’obtention de données précises à l’échelle qui peuvent être itérées rapidement. Et chez Terray, nous pouvons vous les fournir », a déclaré Narbe Mardirossian, directeur de la technologie chez Terray.

« Grâce à DGX Cloud, nous avons pu développer un langage moléculaire qui a permis une optimisation générative efficace et limitée des molécules pour les programmes d’optimisation hit-to-lead et d’optimisation des lead. Avec ces outils, nous sommes impatients d’apporter de nombreuses thérapies inédites aux patients qui en ont besoin. »

« Nous sommes passés d’une semaine pour entraîner un modèle, à une seule journée. »

John Parkhill,
Responsable du machine leaning chez Terray Therapeutics

Résultats

  • L’utilisation de l’infrastructure est quatre fois meilleure par rapport aux autres services Cloud
  • Les temps d’entraînement sont passés d’une semaine à un jour Il a fallu moins d’une journée pour intégrer DGX Cloud
  • Possibilité d’entraîner plusieurs variantes de COATI en parallèle pour trouver l’intégration pré-entraînée optimale
  • Le moyen le plus rapide de commencer à utiliser la plateforme DGX est NVIDIA DGX Cloud, une plateforme d’entraînement de l’IA en tant que service sans serveur destiné aux entreprises qui développent l’IA générative.