Modèles de fondation pour la cherche dans le secteur des sciences de la vie

Modèles de fondation biomoléculaires pour la recherche de le secteur des sciences de la vie

Accélérez les tests itératifs, débloquez les pipelines et accédez à de nouvelles capacités génératives et prédictives grâce à l'exploration centrée sur le modèle.

Charges de travail

Biologie structurelle
Design moléculaire
Simulation moléculaire
Imagerie biomédicale

Industries

Santé et sciences de la vie
Université/Enseignement supérieur
HPC/Calcul scientifique
Agriculture

Objectifs commerciaux

Innovation
Retour sur investissement

Produits

NIMs
BioNeMo
NVIDIA AI Enterprise
MONAI

Entraînement de modèles d'IA biomoléculaires

Les modèles de fondation sont à l'origine d'une transformation majeure du secteur de la recherche en sciences de la vie, car ils peuvent apprendre la structure, les règles et les relations sous-jacentes de la biologie et de la chimie directement à partir de données sur plusieurs séquences, structures, fonctions et modalités. 

Contrairement aux modèles statistiques traditionnels conçus pour des tâches très spécifiques, ces modèles sont utiles pour plusieurs tâches biomoléculaires : repliement des protéines, modification de l'ADN, amarrage moléculaire et même phénotypes cellulaires, par exemple. Ils encodent la complexité biologique dans des représentations détaillées qu'ils ont apprises et peuvent ainsi prédire les interactions, générer de nouvelles molécules et guider les expériences, même dans les environnements pauvres en données ou auparavant inaccessibles. Il en résulte de nouvelles possibilités dans les domaines de la conception thérapeutique, de la génomique fonctionnelle et de l'ingénierie biomoléculaire. En d'autres termes, la science passe d'une approche lente et grossière à des boucles de design rapides qui reposent sur les retours. Bref : l'IA peut désormais apprendre la biologie et la chimie et aider à concevoir l'avenir.

Modèles fondamentaux de protéines pour la structure, la fonction et la conception

Les modèles fondamentaux de protéines font pour les protéines ce que GPT-4 a fait pour le langage : ils apprennent les règles de repliement, de fonction et d'évolution dans un unique réseau neuronal réutilisable.

Les transformateurs avec des milliards de paramètres tels que AlphaFold 3, ESM-3, Proteína et Pallatom sont autant d'exemples de modèles fondamentaux de protéines qui regroupent des pipelines distincts pour la prédiction des replis, l'analyse des mutations, l'amarrage et la conception de-novo en un seul moteur pouvant être interrogé. Grâce à leur taille (énorme quantité de données et paramètres), leur multimodalité (intégrations combinées séquence-structure-ligand) et la possibilité de les contrôler (prompts ou affinement rapide), ils peuvent transformer des semaines de travail en laboratoire ou de code en quelques minutes d'inférence. De quoi révolutionner la R&D sur les protéines pour en faire un workflow orienté logiciel.

Les modèles de fondation de nouvelle génération (AlphaFold 3, ESM-3, Proteína, Pallatom) unifient la prédiction des replis, l'évaluation des variantes, l'amarrage moléculaire et la conception de protéines à la demande dans un seul pipeline d'IA.

Bientôt, ces modèles iront au-delà du repliement pour passer à la fabrication à grande échelle, afin de concevoir des complexes multi-chaînes, des voies métaboliques et même des biomatériaux adaptatifs à la demande. Trois tendances expliquent ceci : les efforts pour atteindre des ensembles d'entraînement d'un millier de milliards de jetons qui capturent des replis rares ; la fusion intermodale plus approfondie qui combine des cartes cryo-EM, des lectures à cellule unique et la cinétique de réaction ; et les adaptateurs plug-and-play (couches d'action) qui traduisent les coordonnées d'un modèle directement en ADN ou en recettes d'expression sans cellules. Cette vision nécessite des jeux de données structurelles et fonctionnelles partagés de haute qualité, des suites de benchmarking ouvertes pour une génération précise et sécurisée, et des méthodes de calcul efficaces afin que les laboratoires et les startups (et pas seulement les fournisseurs de services Hyperscale) puissent itérer à la vitesse permise par les modèles fondamentaux.

Modèles de fondation en génomique pour les plans génétiques de la vie

Les modèles de fondation en génomique tels qu'Evo 2, Nucleotide Transformer, Enformer et Geneformer sont en train de passer du stade de projets à celui de prototypes. 

Ces modèles dominent déjà les benchmarks pour la prédiction des effets de variante et l'annotation monocellulaire. Toutefois, ils ne couvrent encore qu'une petite partie de la biologie génomique. Leur secret ? Une taille énorme (des milliards de jetons d'ADN et de paramètres de transformateur), des transferts auto-supervisés (pré-entraîne­ment sur les données omiques, puis léger affinement) et, pour certains modèles, la multimodalité (fusion de la séquence, de la chromatine et des lectures unicellulaires dans un unique modèle). À mesure que les jeux de données ouverts se développent et que l'entraînement par GPU s'améliore, ces « modèles de fondation en génomique » devraient devenir une couche standard dans toutes les piles technologiques du secteur des sciences de la vie.

Les modèles de fondation en génomique (Evo 2, Nucleotide Transformer, Enformer v2, scGPT) utilisent des milliards de jetons d'ADN pour réaliser en temps réel des prédictions des effets de variante, des annotations unicellulaires et des modèles CRISPR, et ouvrent ainsi la voie à des copilotes basés sur l'IA en génomique et à des découvertes de thérapies de nouvelle génération.

Viendra ensuite l'ère des copilotes basés sur l'IA en génomique : des études telles que Geneformer et Evo 2 prouvent que les modèles de transformation peuvent non seulement prédire, mais aussi concevoir des modifications CRISPR, des promoteurs de-novo et des circuits de régulation utiles, entièrement intégrés dans le système. Les architectures émergentes telles que HyenaDNA, GenSLM et Longformer-DNA peuvent étendre les fenêtres contextuelles au-delà de 1 Mbp pour permettre des boucles chromatiniques 3D et réguler les gènes longue portée. En fin de compte, les données multi-omiques pourront incorporer la méthylation, l'ATAC-seq et l'ARN spatial dans des représentations de séquences pour obtenir des informations biologiques plus détaillées. Ces avancées permettront de trier des variantes cliniques en temps réel, de découvrir des activateurs à haut débit et, un jour, de créer de nouvelles approches de conception thérapeutique telles que la thérapie cellulaire programmable, le tout à partir d'une seule API de « modèle de fondation en génomique ». Concrétiser un jour cette vision va nécessiter des jeux de données génomiques ouverts et confidentiels, des benchmarks zero-shot standardisés, ainsi que des infrastructures de calcul et des logiciels de nouvelle génération qui rendent le pré-entrainement avec un billion de tokens possible hors des systèmes hyperscale.

Modèles fondamentaux de petites molécules

Les modèles de fondation chimiques sont passés du statut de démonstrations à des outils réels pour la découverte de médicaments. 

Des modèles tels que MoLFormer-XL, Uni-Mol 2, MolMIM et GenMol analysent des centaines de millions de chaînes de petites molécules (SMILES), des structures 3D et des données de chimie quantique pour suggérer de nouveaux médicaments candidats, prédire les propriétés biochimiques clés en quelques secondes et suggérer des voies de synthèse possibles. Ces avancées reposent sur trois tendances : les transformateurs adaptés à la 3D et les modèles de diffusion qui comprennent la forme moléculaire ; le pré-entraînement multi-tâches qui permet à un seul modèle de gérer la prédiction des propriétés, le scoring de liaison et la planification de la synthèse ; et l'apprentissage augmenté par simulation qui intègre la physique à partir des simulations quantiques et de dynamique moléculaire.

Les modèles fondamentaux de petites molécules tels que MoLFormer-XL, Uni-Mol 2, MolMIM et GenMol utilisent des chaînes SMILES, des structures 3D et des données de chimie quantique pour générer des médicaments candidats, prédire les propriétés ADMET et planifier des voies de synthèse à l'aide de transformateurs multitâches adaptés à la 3D et augmentés par simulation.

Les grands transformateurs de graphes entraînés sur les réactions chimiques, les simulations moléculaires et les structures 3D peuvent proposer des synthèses, signaler la toxicité et recommander des catalyseurs verts à partir d'une intégration partagée. Leur développement ultérieur repose sur trois autres tendances : des ensembles de données/paramètres toujours plus grands, le pré-entraînement multimodal qui fusionne les spectres et les structures cristallines avec les conditions de réaction, et des adaptateurs de plug-in qui reconfigurent un modèle sur des échafaudages de niche en quelques minutes. Un déploiement à grande échelle nécessite encore des jeux de réactions et de propriétés ouverts et de haute qualité, des benchmarks rigoureux et un débit GPU plus efficace pour les exécutions d'un milliard de jetons. Une fois en place, les modèles de fondation en chimie permettront d'accélérer le processus d'optimisation, de réduire le gaspillage en laboratoire et de faire de la synthèse prédictive une tâche routinière dans les workflows de chimie médicinale.

Cas d'utilisation à créer

Essayez les microservices NVIDIA NIM pour déployer rapidement et facilement de puissants modèles d'IA.

Cas d'utilisation associés