Un modèle moléculaire 3D.

Santé et sciences de la vie

Optimiser la découverte et le développement dans le domaine de la biologie avec l'IA générative

Objectif

Grâce à NVIDIA DGX™ Cloud et BioNeMo™, Amgen entraîne de grands modèles de langage (LLM) sur ses données exclusives pour aider à prévoir les propriétés des protéines et développer des produits biologiques aux propriétés améliorées.

Client

Amgen

Utilisation

IA générative/LLM

Produits

Service NVIDIA BioNeMo
NVIDIA AI Enterprise
NVIDIA DGX

Entraînement de LLM pour concevoir et prévoir les propriétés des protéines, afin d'accélérer la découverte de médicaments

Amgen, une des plus grandes sociétés de biotechnologie au monde, est reconnue pour son rôle de précurseur dans le domaine des produits biologiques. Des médicaments qui combattent des cas d'arthrite, d'anémie et d'autres maladies inflammatoires graves aux traitements contre le cancer, Amgen a développé certains des produits pharmaceutiques les plus vendus qui ont amélioré des centaines de milliers de vies.

Les produits biologiques, qui sont des molécules complexes issues de cellules vivantes, constituent l'un des principaux domaines de R&D d'Amgen. La complexité des produits biologiques leur permet d'être conçus pour se lier spécifiquement à un agent pathogène et d'en réduire les effets. Pour accélérer le rythme de la découverte de médicaments, Amgen a cherché à utiliser l'intelligence artificielle et l'apprentissage automatique pour concevoir ces molécules complexes et volumineuses.

Amgen headquarters.
Image courtesy of Amgen.

Conclusion

  • Les méthodes conventionnelles de découverte de produits biologiques sont très coûteuses et impliquent l'identification de cibles à partir de dizaines de milliers de molécules, la sélection de candidats à partir de millions de molécules et des tests cliniques rigoureux.
  • Pour accélérer la découverte de produits biologiques, Amgen utilise des modèles d'IA générative pour proposer des conceptions de molécules candidates et des modèles prédictifs pour évaluer les conceptions.
  • L'entreprise s'appuie sur NVIDIA DGX Cloud et NVIDIA BioNeMo pour entraîner rapidement les LLM protéiques et les mettre précisément au point et NVIDIA RAPIDS pour effectuer des analyses post-entraînement jusqu'à 100 fois plus rapidement.
  • BioNeMo sur DGX Cloud est une solution clé en main qui a permis à Amgen de se lancer rapidement, en passant de la connexion initiale à l'entraînement de grands modèles en quelques jours.

Bâtir et maintenir une infrastructure d'IA robuste pour les LLM biomoléculaires

Le processus classique de découverte de nouveaux traitements comprend quatre phases : la sélection de cibles, pendant laquelle les cibles potentielles de médicaments sont identifiées ; la découverte et optimisation des pistes, pendant laquelle les thérapeutiques potentielles sont identifiées et optimisées ; la sélection de candidats, pendant laquelle les molécules à développer sont sélectionnées ; et le développement clinique, pendant lequel l'innocuité et l'efficacité du médicament sont testés. Ce processus est long et coûteux : vous pourriez commencer avec des milliers ou des millions d'anticorps uniques ou d'autres protéines, en sélectionner des centaines pour un criblage à haut débit et, à partir de là, aboutir à un petit ensemble de molécules principales. Amgen voulait développer des outils d'IA et d'apprentissage automatique pour accélérer le criblage et l'optimisation.

Les grands modèles de langage et l'IA générative peuvent analyser les données et prévoir les résultats, ce qui permet aux chercheurs d'Amgen de développer de nouveaux produits biologiques plus rapidement et avec plus de précision. Les LLM utilisent des données provenant de vastes bases de données de séquences de protéines pour créer une version virtuelle d'un médicament biologique, qui peut ensuite être utilisée pour élaborer des hypothèses sur les effets dudit produit biologique, ses propriétés et ses effets secondaires potentiels. Cependant, certaines sous-classes de produits biologiques sont issus de molécules nouvellement découvertes, notamment les molécules multispécifiques, et les données sont rares, de sorte qu'il peut être difficile de formuler des prévisions in silico à leur sujet. "Les modèles accessibles au public étant limités, nous avons du pré-entraîner des modèles personnalisés sur nos données propriétaires", explique Christopher Langmead, directeur de la découverte numérique de produits biologiques chez Amgen. "Le pré-entraînement de ces modèles et l'obtention d'inférences à grande échelle nécessite des performances de calcul élevées et une plateforme logicielle et matérielle hautement optimisée."

Solution

NVIDIA DGX Cloud

  • Instances DGX Cloud, chacune comprenant huit GPU NVIDIA A100 Tensor Core de 80 Go
  • Plateforme NVIDIA Base Command™ pour la planification et l'orchestration des tâches NVIDIA AI Enterprise
, incluant RAPIDS pour la lecture de grandes entrées et le regroupement des résultats

NVIDIA BioNeMo

  • Entraînement et inférence : modèles biomoléculaires de pointe spécialement conçus pour les protéines

Résultats

  • Entraînement plus rapide des LLM protéiques par rapport aux options open-source
  • Prévision plus rapide de la structure des protéines, seulement 20 secondes par structure
  • Moins de quatre semaines entre l'intégration sur DGX Cloud et le premier modèle LLM protéique pré-entraîné

Ressources de supercalcul à la demande et modèles d'IA générative personnalisables

Amgen a développé un workflow de biologie générative en utilisant l'IA et l'apprentissage automatique qui commence par un ensemble de spécifications qu'un candidat doit satisfaire. Ensuite, les modèles d'IA générative suggèrent de nouvelles conceptions, et les modèles prédictifs évaluent et classent ces conceptions. Cela se fait de manière itérative jusqu'à ce que des molécules répondent aux spécifications et comprend des critères relatifs à l'efficacité, à la sécurité et à la fabricabilité. L'évaluation in silico d'autant de conceptions que possible à l'aide de ces modèles génératifs réduit la charge sur les laboratoires humides.

"Pour développer des modèles pouvant nous aider à générer de bons produits biologiques, nous avions besoin d'une plateforme permattant un pré-entraînement rapide et une mise au point précise dans le cadre d'une série d'expériences", précise Langmead. "Nous avions besoin de la flexibilité nécessaire pour expérimenter avec différentes données et à différentes échelles. En utilisant NVIDIA BioNeMo sur DGX Cloud, nous avons pu facilement entraîner de manière distribuée des modèles complexes dans un environnement multi-GPU. Les capacités et les performances de NVIDIA BioNeMo et de DGX Cloud correspondaient exactement à ce dont nous avions besoin et étaient disponibles au moment opportun."

"Le processus d'intégration remarquablement rapide était l'un des principaux avantages de DGX Cloud. Nous avons pu passer de notre connexion initiale au pré-entraînement de grands modèles en quelques jours seulement. BioNeMo sur DGX Cloud étant une solution clé en main, nos utilisateurs n'ont en effet plus qu'à fournir des données et à spécifier le modèle en ajustant quelques fichiers de configuration, et BioNeMo gère tous les autres aspects du processus."

Amgen a entraîné le LLM ESM-1nv de protéine dans BioNeMo sur DGX Cloud avec les anticorps exclusifs d'Amgen. Cinq LLM spécifiques aux anticorps ont ainsi été entraînés. BioNeMo dispose de grands modèles de langage biomoléculaires et de modèles de diffusion de premier ordre pour l'entraînement et l'inférence dans les workflows de découverte de médicaments à un stade précoce. Ces modèles permettent de générer des protéines et des petites molécules, de comprendre les propriétés des protéines et des petites molécules, de prévoir les structures de liaison des petites molécules aux protéines et de prévoir la structure 3D des protéines.

"La facilité de l'entraînement multi-nœuds et la possibilité d’utiliser des lots plus importants au sein de DGX Cloud nous ont permis d'atteindre nos objectifs trimestriels en seulement quatre semaines."

Chris James Langmead,
directeur de la découverte numérique de produits biologiques, Amgen

Entraînement plus rapide des LLM protéiques et analyse post-entraînement jusqu'à 100 fois plus rapide

Langmead ajoute : "la facilité de l'entraînement multi-nœuds et la possibilité d’utiliser des lots plus importants dans DGX Cloud nous ont permis d’atteindre nos objectifs trimestriels en seulement quatre semaines. Dans le domaine des produits biologiques, l'entraînement multi-nœuds et multi-GPU est important, car il peut accélérer le processus d'entraînement et permettre d'entraîner des modèles plus grands contenant plus de données. Il en résulte des modèles et des prévisions plus précis, ce qui accélère le processus de développement de médicaments."

DGX Cloud est optimisé pour l'entraînement multi-nœuds, ce qui permet à Amgen de bénéficier de gains de vitesse remarquables. "Nous avons constaté des gains de vitesse spectaculaires dûs à l'entraînement distribué et aux chargeurs de données optimisés utilisant la plateforme DGX par rapport à un environnement à GPU unique."

En utilisant la plateforme Base Command de NVIDIA dans DGX Cloud, les chercheurs d’Amgen ont pu soumettre tous leur travaux en toute simplicité. La plateforme Base Command était très conviviale. Cette capacité d'aligner nos ressources de calcul sans nous préoccuper des subtilités de l'entraînement distribué dans un environnement multi-GPU et multi-nœuds permet à mon équipe de se concentrer sur la recherche scientifique et de fournir des modèles et des outils dans des délais plus courts que ce qui aurait été possible dans tout autre contexte", poursuit M. Langmead.

BioNeMo comprend également une implémentation accélérée du modèle OpenFold, une technique de modélisation biologique qui utilise une approche basée sur la physique pour prévoir la structure 3D des protéines. La prévision de la structure 3D des protéines permet aux chercheurs de mieux comprendre la fonctionnalité de la protéine et de développer des produits biologiques plus efficaces et plus ciblés qui peuvent se lier à la protéine cible et améliorer les résultats thérapeutiques. "Par rapport à la propre version internalisée d'Amgen du même modèle, nous avons constaté une augmentation de 20 à 30 fois de la vitesse de création des alignements de séquences multiples dans BioNeMo. Par ailleurs, nous avons constaté des gains de vitesse considérables en utilisant un modèle public pour la prévision de la structure des protéines," souligne M. Langmead.

"Les capacités informatiques puissantes et multi-nœuds de DGX Cloud ont permis à Amgen d’accélérer l’entraînement des LLM protéiques avec BioNeMo et d’accélérer jusqu’à 100 fois l’analyse post-entraînement avec NVIDIA RAPIDS."

Chris James Langmead,
directeur de la découverte numérique de produits biologiques, Amgen

"Grâce à NVIDIA DGX Cloud et NVIDIA BioNeMo, nos chercheurs peuvent se concentrer plus profondément sur la biologie plutôt que sur la mise en place d'une infrastructure d’IA. Les capacités informatiques puissantes et multi-nœuds de DGX Cloud ont permis à Amgen d'accélérer l'entraînement des LLM protéiques avec BioNeMo et de multiplier par 100 l'analyse post-entraînement avec NVIDIA RAPIDS par rapport aux autres plates-formes."

"La réactivité des experts en IA de NVIDIA, dont les connaissances techniques ont permis à nos codes de fonctionner efficacement sur leur plateforme, a été déterminante. Au lieu de consulter des forums, nous avons obtenu des réponses sur notre infrastructure et nos outils en temps réel. Grâce à cela, mon équipe peut se concentrer sur la modélisation plutôt que sur l'ingénierie logicielle."

Le regard tourné vers l’avenir

L'amélioration de la découverte et du développement de produits biologiques promet d'offrir des traitements plus efficaces à moindre coût avec une meilleure fabricabilité tout en réduisant ou éliminant les effets secondaires. Pour y parvenir, Amgen cherche à accroître ses charges de travail en utilisant BioNeMo sur DGX Cloud. Cela comprend le pré-entraînement de modèles de langage protéiques ayant une application spécifiques et de modèles de langage ARN, ainsi que le déploiement de ces modèles sur la plateforme de biologie générative d'Amgen. "DGX Cloud et BioNeMo offrent les performances et l'évolutivité dont nous avons besoin, nous permettant d'accroître notre productivité et notre impact. Cela transforme déjà notre façon de travailler en augmentant considérablement la portée de ce qui peut être accompli par une équipe de notre taille", précise M. Langmead.

Vous voulez vous lancer ?

Pour en savoir plus sur les solutions de NVIDIA pour le secteur de la santé et des sciences de la vie, n'hésitez pas à nous contacter.