Santé et sciences de la vie

Développer des modèles de langage d'anticorps avec BioNeMo de NVIDIA

Explorer la solution

Objectif

Client

Astellas Pharma Inc.

Cas d'utilisation

IA générative / LLM

Produits

BioNeMo
DGX A100
DGX H100

Construire une plateforme de découverte de médicaments qui intègre les humains, l'IA et la robotique.

Astellas Pharma Inc., l'une des principales entreprises pharmaceutiques au Japon, a développé son propre modèle de langage d'anticorps, astABpLM, en utilisant BioNeMo, le framework d'IA générative de NVIDIA, pour la découverte de médicaments afin de prédire efficacement les propriétés des nouveaux anticorps dans le cadre de la découverte de médicaments. En même temps, l'entreprise utilise l'IA générative pour générer diverses structures 3D de composés dans le cadre de la découverte de médicaments à l'aide de composés chimiques, atteignant une vitesse plus de 50 fois plus rapide que la méthode conventionnelle. Pour l'environnement de calcul, on utilise un DGX™ H100 au centre d'innovation pour la découverte de médicaments de Tokyo-1, fourni par Xeureka, une filiale de Mitsui & Co.

Astellas Pharma Inc.

Kenichi Mori, directeur
général adjoint de
Modality Informatics

Astellas Pharma Inc.

Se concentrer sur la recherche de la découverte de médicaments sans penser aux algorithmes et à l'optimisation des paramètres

Défi

Pour simplifier le processus de découverte de médicaments, qui peut prendre entre 10 et 20 ans, Astellas s'efforce de numériser l'ensemble de la chaîne de valeur de la découverte de médicaments. En particulier dans la phase de recherche, l'entreprise s'efforce de développer une plateforme de découverte de médicaments avec intervention humaine (environnement de recherche) qui intègre les humains, l'IA et les robots. « L'objectif de la numérisation est de fournir des médicaments innovants aux patients le plus rapidement possible. C'est de cela qu'il s'agit », explique Kenichi Mori, directeur général adjoint de Modality Informatics, qui fait la promotion de la transformation numérique de la recherche.

Parmi les différentes modalités de découverte de médicaments, la découverte de médicaments à base d'anticorps utilise le mécanisme d'anticorps. Les anticorps, également appelés immunoglobulines, sont des protéines qui se lient à des antigènes spécifiques, tels que des cellules cancéreuses, des bactéries et des virus pour cesser leur fonction.

Afin de développer des médicaments à base d'anticorps, il est nécessaire de mesurer les propriétés de liaison et les propriétés physiques des nouveaux anticorps pouvant être candidats comme nouveaux médicaments pour les antigènes et d'évaluer leur viabilité en tant que médicaments. Les propriétés physiques font référence ici à des propriétés telles que la stabilité structurelle, la solubilité, la viscosité et la cohésion. La mesure de certaines propriétés physiques prend du temps, donc si elles peuvent être prédites avant la mesure, le processus peut être raccourci.

Natnael Hamda, directeur de l'informatique de Modality Informatics et ingénieur principal chez Astellas Pharma, s'est concentré sur les modèles de langage protéique (pLMs) comme moyen de prédire les propriétés physiques des anticorps. Cette méthode modélise une protéine composée de 20 acides aminés pour l'exprimer en termes de langage en 20 caractères, ce qui est utile pour l'analyse structurelle et la prédiction fonctionnelle.

« Nous avons pensé que, puisque les anticorps sont également composés de protéines, les pLMs standards pourraient être appliqués. » Bien que les fonctionnalités basées sur le pLM aient démontré une meilleure précision que les fonctionnalités bio-informatiques traditionnelles pour prédire les propriétés générales des protéines, telle que la stabilité thermique, le modèle a nettement pas très bien performé pour prédire les propriétés spécifiques aux anticorps, à la fois en termes de précision et de généralisation », a déclaré Hamda.

Les raisons en sont les suivantes : « La différence réside dans le fait que les protéines ont évolué au fil du temps pour devenir des structures complexes, tandis que les anticorps se sont adaptés à leurs antigènes cibles. Nous savons également que le principe de base des protéines1 selon lequel « la structure détermine la fonction » pourrait ne pas être vrai dans certains cas. Pour cette raison, nous pensons que le pLM normal n'a pas fonctionné pour les anticorps. »

^{On appelle} cela le dogme d'Anfinsen, du nom du Dr C. Anfinsen, le biochimiste qui l'a proposé.

Solution

Pour résoudre ce problème, Hamda a décidé de développer son propre modèle de langage spécifique aux anticorps. Il a nommé le modèle « astABpLM », abréviation de « Astellas Antibody Pre-trained Language Model ».

La base de données Observed Antibody Space (OAS) recueillie et fournie par l'Université d'Oxford, située au Royaume-Uni, a été utilisée comme données d'anticorps pour des entraînements.2 La taille des données était de 2,4 milliards de séquences, qui ont été prétraitées à l'aide de la suite RAPIDS™ de NVIDIA pour la science des données afin de préparer le jeu de données pour l'entraînement.

Le modèle utilisé était ESM-1nv, optimisé par NVIDIA, basé sur le modèle de langage ESM-1 pour les protéines, développé par Meta AI Labs. ESM-1nv est fourni dans le cadre BioNeMo de NVIDIA, une plateforme d'IA générative pour la découverte de médicaments. « Le moment était parfait pour commencer à accéder à BioNeMo, c'est pourquoi j'ai immédiatement décidé d'utiliser ESM-1nv. Elle est optimisée pour les GPU NVIDIA et bénéficie du soutien de NVIDIA, ce qui la rend très facile à utiliser », a déclaré Hamda.

Pour l'entraînement, il a utilisé une méthode unique selon laquelle les chaînes lourdes (H-chains) et légères (L-chains) qui composent l'anticorps sont entraînées séparément (voir l'illustration). « Étant donné que les chaînes lourdes et les chaînes légères sont biologiquement distinctes, nous avons pensé pouvoir maximiser la richesse des données de l'OAS en les entraînant séparément », a déclaré Hamda.

Un NVIDIA DGX A100 est utilisé comme matériel. Le modèle de chaîne lourde astABpLM_VH et le modèle de chaîne légère astABpLM_VL ont terminé leur entraînement en environ 65 heures et 37 heures, respectivement.

Outre le développement du modèle de langage d'anticorps astABpLM décrit ci-dessus, l'entreprise utilise l'IA générative pour générer une variété de structures 3D pour des composés de poids moléculaires moyens et faibles, notamment PROTACs (protéolyse ciblant la chimère), dans le cadre de son flux de travail de recherche.

Elle a développé un flux de travail unique afin de rapidement générer des structures 3D de composés à l'aide d'un modèle de diffusion torsionnelle qui apprend les angles dihédraux des groupes atomiques sur la base du jeu de données GEOM,3,4 qui contient les structures de 37 millions de composés différents.

² OAS : https://opig.stats.ox.ac.uk/webapps/oas/

³ Diffusion torsionnelle : Jing et al. 2022, https://arxiv.org/pdf/2206.01729.pdf

⁴ GEOM : https://github.com/learningmatter-mit/geom

Résultats

Le modèle de langage spécifique aux anticorps, astABpLM, a été intégré aux flux de travail existants de prédiction des propriétés des anticorps et est utilisé pour découvrir de nouveaux anticorps qui pourraient être des candidats pour de nouveaux médicaments. « L'utilisation d'astABpLM a certainement amélioré la précision de nos prédictions sur les propriétés physiques », explique Mori. Hamda a également souligné l'avantage de disposer de son propre modèle, qui lui permet de gérer non seulement l'intégration, mais également la probabilité de chaque résidu d'acide aminé, si nécessaire.

En revanche, le flux de travail exclusif de l'entreprise pour le criblage conformationnel moléculaire des composés a permis d'augmenter la vitesse de 50 à 60 fois comparé aux méthodes conventionnelles. Hamda explique les résultats : « Nous obtenons maintenant des résultats en seulement 15 secondes, alors que l'environnement précédent nécessitait plusieurs heures à une journée. »

Les deux points individuels indiquent que l'utilisation accrue de BioNeMo de NVIDIA est la voie à suivre. Hamda explique : « Outre l'ESM-1nv utilisé pour astABpLM, nous utilisons les différents modèles et capacités offerts par BioNeMo de NVIDIA, notamment MegaMolBART pour les petites molécules. » Mori a ajouté : « Je pense que l'un des avantages de BioNeMo de NVIDIA est que nous pouvons nous concentrer sur nos recherches sans avoir à penser à l'optimisation des algorithmes et des paramètres lorsque nous menons la découverte de médicaments. » Nous sommes impatients de continuer à ajouter une variété de modèles et de fonctionnalités pour soutenir la diversité des modalités. »

Enfin, Mori résume la situation comme suit : « Un changement de paradigme dans la recherche sur la découverte de médicaments est sur le point de se produire en raison de la convergence des environnements de calcul haute performance et de l'IA générative. Grâce à BioNeMo de NVIDIA et à Tokyo-1, nous allons continuer à raccourcir le pipeline de découverte de médicaments dans l'ensemble et, à terme, apporter de nouveaux médicaments innovants aux patients le plus rapidement possible. »

Astellas est l'un des membres participants de Tokyo-1,5, un pôle d'innovation pour la découverte de médicaments lancé par Xeureka, une filiale de Mitsui & Co. Le concept est d'améliorer l'efficacité de la recherche sur la découverte de médicaments, tout en utilisant le nouveau système NVIDIA DGX H100 haute performance.

⁵ Tokyo-1 : https://tokyo-1.ai/

« La convergence des environnements de calcul haute performance et de l'IA générative va entraîner un changement de paradigme dans la recherche sur la découverte de médicaments. Grâce à BioNeMo de NVIDIA et à Tokyo-1, nous nous engageons à raccourcir notre pipeline de découverte de médicaments et à mettre à la disposition des patients de nouveaux médicaments innovants le plus rapidement possible »

Kenichi Mori
Astellas Pharma Inc.

Astellas Pharma Inc.

Natnael
Hamda, directeur chez Modality
Informatics et
ingénieur principal

Aperçu du développement du modèle de langage d'anticorps propriétaire astABpLM

Entraînement indépendant des chaînes VH et VL à l'aide de l'ESM-1nv optimisé en tant que structure principale.
Le modèle peut être entraîné à l'aide de DGX Cloud (un nœud, huit GPU A100).

Jusqu'à 65 heures pour astABpLM_VH
Jusqu'à 37 heures pour astABpLM_VH
Au départ, seulement 10 % des données étaient entraînées à l'aide de l'infrastructure existante.

Les jeux de données sur les chaînes lourdes (la partie rouge du Y) et les chaînes légères (la partie bleue du Y) qui forment des anticorps ont été transmis séparément à ESM-1nv pour l'entraînement.

Scaleway

Êtes-vous prêts à en savoir plus?

Pour en savoir plus sur les solutions de NVIDIA pour la santé et les sciences de la vie, contactez-nous.

Contactez-nous