Atención sanitaria y biociencias

Desarrollo de modelos de lenguaje de anticuerpos con NVIDIA BioNeMo

Objetivo

Ofrecer nuevos medicamentos a los pacientes lo antes posible mediante el desarrollo de modelos de lenguaje de anticuerpos con NVIDIA BioNeMo™, agilizando el flujo de trabajo de descubrimiento de medicamentos. Promoción de la construcción de una plataforma de descubrimiento de medicamentos con intervención humana que integra humanos, IA y robótica. Céntrese en la investigación del descubrimiento de medicamentos sin pensar en algoritmos ni optimización de parámetros.

Cliente

Astellas Pharma Inc.

Caso de uso

IA generativa/LLM

Productos

BioNeMo
DGX A100
DGX H100

Construcción de una plataforma de descubrimiento de medicamentos con intervención humana que integra humanos, IA y robótica

Astellas Pharma Inc., una de las principales empresas farmacéuticas de Japón, ha desarrollado su propio modelo de lenguaje de anticuerpos, astABpLM, utilizando el marco de IA generativa de NVIDIA para el descubrimiento de medicamentos, BioNeMo, para predecir de forma eficiente las propiedades de nuevos anticuerpos en el descubrimiento de medicamentos con anticuerpos. Al mismo tiempo, la empresa utiliza la IA generativa para generar diversas estructuras 3D de compuestos en el descubrimiento de medicamentos utilizando compuestos químicos, logrando así una velocidad más de 50 veces superior a la del método convencional. Para el entorno de computación, utiliza un DGX™ H100 en el centro de innovación para el descubrimiento de medicamentos Tokyo-1 proporcionado por Xeureka, una filial de Mitsui & Co.

Astellas Pharma Inc.

Gerente general adjunto
de Informática de Modalidad, Kenichi Mori

Astellas Pharma Inc.

Centrarse en la investigación del descubrimiento de medicamentos sin pensar en algoritmos ni optimización de parámetros

Desafío

A fin de agilizar el proceso de descubrimiento de medicamentos, que puede durar entre 10 y 20 años, Astellas trabaja para digitalizar toda la cadena de valor del descubrimiento de medicamentos. Particularmente en la fase de investigación, la empresa trabaja para crear una plataforma de descubrimiento de medicamentos (entorno de investigación) con intervención humana que integra humanos, IA y robots. «El objetivo de la digitalización es ofrecer nuevos medicamentos innovadores a los pacientes lo antes posible. De eso se trata todo», explica Kenichi Mori, gerente general adjunto de Informática de Modalidad de la empresa, que promueve la transformación digital de la investigación.

Entre las diversas modalidades de descubrimiento de medicamentos, el descubrimiento de medicamentos con anticuerpos utiliza el mecanismo de los anticuerpos. Los anticuerpos, también llamados inmunoglobulinas, son proteínas que se unen a antígenos específicos, como células cancerosas, bacterias y virus, para detener su actividad.

Para desarrollar medicamentos con anticuerpos, es necesario medir las propiedades de unión y físicas de los nuevos anticuerpos que podrían ser candidatos como nuevos medicamentos para antígenos y evaluar si son viables como medicamentos. En este sentido, las propiedades físicas se refieren a propiedades como la estabilidad estructural, la solubilidad, la viscosidad y la cohesión. En ocasiones se necesita mucho tiempo para medir algunas propiedades físicas, por lo que si se pueden predecir antes de la medición, el proceso se puede acortar.

Natnael Hamda, gerente de Informática de Modalidad e ingeniero jefe de Astellas Pharma, se ha centrado en los modelos de lenguaje de proteínas (pLM) como medio para predecir las propiedades físicas de los anticuerpos. Este método modela una proteína compuesta por 20 aminoácidos para expresarla en términos de lenguaje en 20 caracteres, lo que resulta útil para el análisis estructural y la predicción funcional.

«Pensamos que, dado que los anticuerpos también están compuestos de proteínas, se podría aplicar el pLM estándar. Aunque las características basadas en pLM demostraron mayor precisión que las características bioinformáticas tradicionales a la hora de predecir propiedades generales de proteínas, como la estabilidad térmica, el modelo tuvo un rendimiento significativamente inferior en la predicción de propiedades específicas de anticuerpos en lo que se refiere a precisión y generalización», dijo Hamda.

En su opinión, las razones son las siguientes: «La diferencia es que las proteínas han evolucionado con el tiempo hasta convertirse en estructuras complejas, mientras que los anticuerpos se han adaptado a sus antígenos objetivo. También sabemos que el principio básico de las proteínas1 según el cual "la estructura determina la función" puede no ser cierto en algunos casos. Por este motivo, creemos que el pLM normal no funcionó en el caso de los anticuerpos».

¹Esto se denomina dogma de Anfinsen, en honor al Dr. C. Anfinsen, el bioquímico que lo propuso.

Solución

Para abordar este problema, Hamda decidió desarrollar su propio modelo de lenguaje específico para anticuerpos. Llamó al modelo «astABpLM», la abreviatura de «Modelo de lenguaje preentrenado de anticuerpos de Astellas (Astellas Antibody Pre-trained Language Model)».

La base de datos Observed Antibody Space (OAS), desarrollada y proporcionada por la Universidad de Oxford (Reino Unido), se utilizó como datos de anticuerpos para el entrenamiento.2 El tamaño de los datos era de 2400 millones de secuencias, que se preprocesaron utilizando el conjuntoRAPIDS™ de NVIDIA para ciencia de datos a fin de preparar el conjunto de datos para el entrenamiento.

El modelo utilizado fue ESM-1nv, que fue optimizado por NVIDIA en función del modelo de lenguaje ESM-1 para proteínas, desarrollado por Meta AI Labs. ESM-1nv se proporciona como parte de NVIDIA BioNeMo, una plataforma de IA generativa para el descubrimiento de medicamentos. «Era el momento adecuado para comenzar a usar BioNeMo, por lo que inmediatamente decidí utilizar ESM-1nv. Está optimizado para GPU NVIDIA y cuenta con el apoyo de NVIDIA, lo que lo hace muy fácil de usar», dijo Hamda.

Para el entrenamiento, empleó un método único mediante el cual las cadenas pesadas (H-chains) y las cadenas ligeras (L-chains) que componen el anticuerpo se entrenan por separado (véase la ilustración). «Dado que las cadenas pesadas y las cadenas ligeras son biológicamente distintas, pensamos que podríamos maximizar la riqueza de los datos de OAS al entrenarlas por separado», dijo Hamda.

Se utiliza un NVIDIA DGX A100 como hardware. El modelo de cadena pesada astABpLM_VH y el modelo de cadena ligera astABpLM_VL completaron el entrenamiento en unas 65 y 37 horas, respectivamente.

Además del desarrollo del modelo de lenguaje de anticuerpos astABpLM descrito anteriormente, la empresa utiliza IA generativa a fin de generar una variedad de estructuras 3D para compuestos de peso molecular bajo y medio, incluida PROTAC (quimera dirigida a la proteólisis), como parte de su flujo de trabajo de investigación.

Desarrolló un flujo de trabajo único para generar rápidamente estructuras 3D de compuestos utilizando un modelo de difusión torsional que aprende ángulos diédricos de grupos atómicos basados en el conjunto de datos GEOM,3,4 que contiene las estructuras de 37 millones de compuestos diferentes.

² OAS: https://opig.stats.ox.ac.uk/webapps/oas/

³ Torsional diffusion: Jing et al. 2022, https://arxiv.org/pdf/2206.01729.pdf

⁴ GEOM: https://github.com/learningmatter-mit/geom

Resultados

El modelo de lenguaje específico de anticuerpos, astABpLM, se ha incorporado en los actuales flujos de trabajo de predicción de propiedades de anticuerpos y se utiliza para descubrir nuevos anticuerpos que pueden ser candidatos para nuevos medicamentos. «No cabe duda de que el uso de astABpLM ha mejorado la precisión de nuestras predicciones de propiedades físicas», dice Mori. Hamda también señaló la ventaja de que la empresa tenga su propio modelo, que le permite gestionar no solo la incrustación, sino también la probabilidad de cada residuo de aminoácido, según sea necesario.

Por otro lado, el flujo de trabajo patentado de la empresa para el cribado conformacional molecular de compuestos ha permitido un aumento de la velocidad de 50 a 60 veces en comparación con los métodos convencionales. Al explicar los resultados, Hamda señala: «Ahora obtenemos resultados en tan solo 15 segundos, en comparación con el entorno anterior, que necesitaba de varias horas hasta todo un día».

Ambos coinciden en que el uso continuado de NVIDIA BioNeMo es el camino a seguir. Hamda explica: «Además del ESM-1nv utilizado para astABpLM, usamos los diversos modelos y capacidades que ofrece NVIDIA BioNeMo, incluido MegaMolBART para moléculas pequeñas». Mori añadió: «Creo que una de las ventajas de NVIDIA BioNeMo es que podemos centrarnos en nuestra investigación sin tener que pensar en optimizar algoritmos o parámetros cuando investigamos el descubrimiento de medicamentos. Esperamos continuar añadiendo una variedad de modelos y características para apoyar la diversidad de modalidades».

Finalmente, Mori resume la situación de la siguiente manera: «Está a punto de producirse un cambio de paradigma en la investigación para el descubrimiento de medicamentos como resultado de la convergencia de entornos de computación de alto rendimiento e IA generativa. A través de NVIDIA BioNeMo y Tokyo-1, continuaremos acortando el proceso general de descubrimiento de medicamentos y, en última instancia, pondremos nuevos medicamentos innovadores a disposición de los pacientes lo antes posible».

Astellas es uno de los miembros participantes de Tokyo-1,5, un centro de innovación para el descubrimiento de medicamentos lanzado por Xeureka, filial de Mitsui & Co. El objetivo es mejorar la eficiencia de la investigación en el descubrimiento de medicamentos al tiempo que se utiliza el nuevo NVIDIA DGX H100 de alto rendimiento.

⁵ Tokyo-1: https://tokyo-1.ai/

«Está a punto de producirse un cambio de paradigma en la investigación para el descubrimiento de medicamentos como resultado de la convergencia de entornos de computación de alto rendimiento e IA generativa. A través de NVIDIA BioNeMo y Tokyo-1, nos comprometemos a acortar nuestro proceso de descubrimiento de medicamentos y poner nuevos medicamentos innovadores a disposición de los pacientes lo antes posible».

Kenichi Mori
Astellas Pharma Inc.

Astellas Pharma Inc.

Gerente de
Informática de modalidad e
ingeniero jefe,
Natnael Hamda

Descripción del desarrollo del modelo de lenguaje de anticuerpos patentado astABpLM

Entrenamiento independiente de las cadenas VH y VL utilizando el ESM-1nv optimizado como estructura base.
El modelo se puede entrenar utilizando DGX Cloud (un nodo, ocho GPU A100).

Hasta 65 horas para astABpLM_VH
Hasta 37 horas para astABpLM_VH
Inicialmente, solo el 10 % de los datos se entrenó utilizando la infraestructura existente.

Los conjuntos de datos de cadenas pesadas (la parte roja de la Y) y cadenas ligeras (la parte azul de la Y) que forman anticuerpos se entrenaron por separado con ESM-1nv.

Scaleway

¿Desea obtener más información?

Si desea obtener más información sobre las soluciones de NVIDIA para biociencias y atención sanitaria, póngase en contacto con nosotros.

Póngase en contacto