Un modelo de molécula en 3D.

Ciencias de la salud y de la vida

Mejora del descubrimiento y desarrollo de productos biológicos con IA generativa

Objetivo

Al utilizar NVIDIA DGX™ Cloud y BioNeMo™, Amgen entrena modelos lingüísticos de gran tamaño (LLM) en sus datos patentados para ayudar a predecir las propiedades de las proteínas y desarrollar productos biológicos con mejores propiedades.

Cliente

Amgen

Caso de uso

IA generativa/LLM

Productos

Servicio NVIDIA BioNeMo
NVIDIA AI Enterprise
NVIDIA DGX

Entrenamiento de LLM para diseñar y predecir propiedades de proteínas y acelerar así el descubrimiento de fármacos

Como una de las principales empresas biotecnológicas del mundo, Amgen es conocida por ser pionera en productos biológicos. Desde medicamentos que combaten la artritis grave, la anemia y otras enfermedades inflamatorias hasta tratamientos contra el cáncer, Amgen ha desarrollado algunos de los productos farmacéuticos más vendidos que han mejorado cientos de miles de vidas.

Una de las principales áreas de I+D de Amgen son los productos biológicos: moléculas complejas que se fabrican y extraen de células vivas. La complejidad de los productos biológicos les permite diseñarlos para que se unan específicamente al agente causante de la enfermedad y reduzcan sus efectos. Para acelerar el ritmo de descubrimiento de fármacos, Amgen buscó utilizar la inteligencia artificial y el aprendizaje automático para diseñar estas moléculas grandes y complejas.

Amgen headquarters.
Image courtesy of Amgen.

Resumen

  • El descubrimiento tradicional de productos biológicos es muy costoso, ya que implica la identificación de objetivos entre decenas de miles de moléculas, la selección de candidatos entre millones de moléculas y la realización de rigurosas pruebas clínicas.
  • Para acelerar el descubrimiento de productos biológicos, Amgen utiliza modelos de IA generativa para proponer diseños para moléculas candidatas y modelos predictivos para evaluar diseños.
  • Utilizaron NVIDIA DGX Cloud y NVIDIA BioNeMo para un entrenamiento rápido y ajuste fino de los LLM de proteínas y NVIDIA RAPIDS para acelerar hasta 100 veces el análisis posterior al entrenamiento.
  • BioNeMo en DGX Cloud es una solución lista para usar que permitió a Amgen ponerse en marcha rápidamente, pasando del inicio de sesión inicial al entrenamiento de modelos de gran tamaño en solo unos días.

Creación y mantenimiento de una infraestructura robusta de IA para LLM biomoleculares

El proceso tradicional de descubrimiento de nuevas terapias involucra cuatro fases: selección de objetivos, en la que se identifican los posibles objetivos de los fármacos; descubrimiento y optimización de potenciales elementos, en la que se identifican y optimizan las posibles terapias; selección de candidatos, en la que se eligen las moléculas que se desarrollarán; y desarrollo clínico, donde se prueba la seguridad y la efectividad del fármaco. Este proceso es largo y costoso: se puede comenzar con miles o millones de anticuerpos únicos u otras proteínas, seleccionar cientos para el cribado de alto rendimiento y, a partir de ahí, terminar con un pequeño conjunto de moléculas posibles. Amgen quería desarrollar herramientas de IA y aprendizaje automático para acelerar el cribado y la optimización.

Los modelos lingüísticos de gran tamaño y la IA generativa pueden analizar datos y predecir resultados, lo que permite a los investigadores de Amgen desarrollar nuevos productos biológicos con mayor velocidad y precisión. Los LLM usan datos de gigantescas bases de datos de secuencias de proteínas para crear una versión virtual de un producto biológico, que luego se puede usar para generar hipótesis sobre los efectos del producto biológico, sus propiedades y sus posibles efectos secundarios. Sin embargo, algunas subclases de productos biológicos son nuevas en la naturaleza, especialmente moléculas multiespecíficas, y los datos son escasos, por lo que puede ser difícil hacer predicciones in silico sobre ellos. "Debido a que los modelos disponibles al público son limitados, tuvimos que preentrenar modelos personalizados a partir de nuestros datos patentados", dice Christopher Langmead, director de descubrimiento de productos biológicos digitales en Amgen. "Preentrenar estos modelos y luego realizar inferencia a escala requiere un cálculo potente y una plataforma de software y hardware muy optimizada".

Solución

NVIDIA DGX Cloud

  • Instancias de DGX Cloud, cada una con ocho GPU NVIDIA A100 Tensor Core de 80 GB
  • Plataforma NVIDIA Base Command™ para programación y organización de trabajos NVIDIA AI Enterprise
, que incluye RAPIDS para la lectura de entradas de datos de gran tamaño y agrupación de resultados

NVIDIA BioNeMo

  • Entrenamiento e inferencia de modelos biomoleculares de vanguardia centrados en las proteínas

Resultados

  • Entrenamiento más rápido de LLM de proteínas en comparación con las opciones de código abierto
  • Predicciones más rápidas de estructuras de proteínas: tan solo 20 segundos por estructura
  • Menos de cuatro semanas desde la incorporación en DGX Cloud hasta el primer modelo LLM de proteínas entrenado previamente

Recursos de supercomputación bajo demanda y modelos de IA generativa personalizables

Amgen desarrolló un flujo de trabajo de biología generativa mediante IA y aprendizaje automático que comienza con un conjunto de especificaciones que un candidato debe satisfacer. A continuación, los modelos de IA generativa sugieren nuevos diseños, y los modelos predictivos evalúan y clasifican estos diseños. Esto se hace de forma iterativa hasta que se encuentren moléculas que cumplen las especificaciones, que incluyen criterios relevantes para la eficacia, la seguridad y la capacidad de fabricación. Evaluar tantos diseños in silico con estos modelos generativos reduce la carga en los laboratorios de prácticas.

"Para desarrollar modelos que nos ayuden a generar buenos productos biológicos, necesitábamos una plataforma que permitiera un preentrenamiento rápido y un ajuste fino en toda una serie de experimentos", dice Langmead. "Necesitábamos flexibilidad para experimentar con diferentes datos y escalas. Gracias A NVIDIA BioNeMo en DGX Cloud, pudimos realizar fácilmente el entrenamiento distribuido de modelos complejos en un entorno multiGPU. Las capacidades y el rendimiento de NVIDIA BioNeMo y DGX Cloud eran precisamente lo que necesitábamos y estaban a nuestra disposición cuando las necesitábamos".

"Una de las ventajas clave de DGX Cloud fue el proceso de incorporación notablemente rápido. Pudimos avanzar desde nuestro inicio de sesión inicial hasta el preentrenamiento de modelos de gran tamaño en solo unos días. BioNeMo en DGX Cloud es una solución integral: nuestros usuarios solo necesitan suministrar datos y especificar el modelo ajustando unos pocos archivos de configuración, y BioNeMo se encarga de todos los demás aspectos del proceso".

Amgen entrenó el LLM de la proteína ESM-1nv en BioNeMo en DGX Cloud con anticuerpos patentados de Amgen. Esto dio lugar a cinco LLM entrenados específicos para anticuerpos. BioNeMo tiene modelos lingüísticos biomoleculares de gran tamaño y de difusión de vanguardia para el entrenamiento e inferencia en flujos de trabajo de descubrimiento de fármacos en etapa temprana. Esto incluye modelos para generar proteínas y moléculas pequeñas, comprender las propiedades de proteínas y moléculas pequeñas, predecir estructuras de unión de pequeñas moléculas unidas a proteínas y predecir la estructura 3D de proteínas.

"La facilidad del entrenamiento en varios nodos y la capacidad de utilizar tamaños de lotes más grandes en DGX Cloud nos permitió alcanzar nuestros objetivos de tres meses en solo cuatro semanas".

Chris James Langmead,
director de descubrimiento de productos biológicos digitales en Amgen

Entrenamiento más rápido de LLM de proteínas y análisis posterior al entrenamiento hasta 100 veces más rápido

Langmead comenta: "La facilidad de entrenamiento multinodo y la capacidad de usar tamaños de lote más grandes en DGX Cloud nos permitieron alcanzar nuestros objetivos de tres meses en solo cuatro semanas. El entrenamiento multinodo y multi-GPU es importante en productos biológicos, ya que puede ayudar a acelerar el proceso de entrenamiento y permitir el entrenamiento de modelos de mayor tamaño con más datos. Esto genera modelos y predicciones más precisas, que aceleran el proceso de desarrollo de fármacos".

DGX Cloud está optimizado para el entrenamiento multinodo, lo que permite a Amgen experimentar aceleraciones notables. "Observamos notables aceleraciones debido al entrenamiento distribuido y los cargadores de datos optimizados que utilizan la plataforma DGX en comparación con un entorno de una sola GPU".

Al utilizar la plataforma NVIDIA Base Command Platform en DGX Cloud, los investigadores de Amgen pudieron enviar todos los trabajos con facilidad. Las características de monitorización y telemetría garantizaron que todos los trabajos se ejecutaran sin problemas y con eficacia. "Base Command Platform fue muy intuitiva. Esta capacidad para alinear nuestros recursos de computación sin preocuparnos por las complejidades del entrenamiento distribuido en un entorno multi-GPU y multinodo permite a mi equipo concentrarse en el trabajo científico y entregar modelos y herramientas a un ritmo más rápido de lo que hubiera sido factible en cualquier otro entorno", afirma Langmead.

BioNeMo también incluye una implementación acelerada del modelo OpenFold, una técnica de modelado biológico que utiliza un método basado en la física para predecir la estructura 3D de las proteínas. La predicción de estructuras 3D de las proteínas ayuda a los investigadores a comprender mejor su funcionalidad y a desarrollar productos biológicos más efectivos y específicos que puedan unirse a la proteína objetivo y mejorar los resultados terapéuticos. "En comparación con la propia versión internalizada del mismo modelo de Amgen, hemos observado una aceleración de entre 20 y 30 veces en la creación de alineaciones de múltiples secuencias en BioNeMo. Por otra parte, al utilizar un modelo disponible al público para la predicción de la estructura de proteínas, observamos un aumento espectacular de la velocidad", comenta Langmead.

"Las capacidades de computación y multinodo de DGX Cloud han permitido a Amgen lograr un entrenamiento más rápido de LLM de proteínas con BioNeMo y un análisis posterior al entrenamiento hasta 100 veces más rápido con NVIDIA RAPIDS".

Chris James Langmead,
director de descubrimiento de productos biológicos digitales en Amgen

"Con NVIDIA DGX Cloud y NVIDIA BioNeMo, nuestros investigadores pueden centrarse en una biología más profunda en lugar de crear una infraestructura de IA. Las potentes capacidades de computación y multinodo de DGX Cloud han permitido a Amgen lograr un entrenamiento más rápido de LLM de proteínas con BioNeMo y un análisis posterior al entrenamiento hasta 100 veces más rápido con NVIDIA RAPIDS en comparación con otras plataformas".

"La capacidad de respuesta de los expertos en IA de NVIDIA, que son los recursos técnicos para conseguir que nuestros códigos funcionen eficientemente en su plataforma, fue clave. En lugar de acudir a foros, obtuvimos respuestas sobre nuestra infraestructura y herramientas en tiempo real. Gracias a esto, mi equipo puede centrarse en el modelado y no en la ingeniería de software".

Con la vista puesta en el futuro

Mejorar el descubrimiento y desarrollo de productos biológicos promete ofrecer tratamientos más efectivos con una mejor capacidad de fabricación y reducción o eliminación de efectos secundarios a un menor coste. Para lograrlo, Amgen busca expandir las cargas de trabajo con BioNeMo en DGX Cloud. Esto incluye el preentrenamiento de modelos lingüísticos de proteínas y ARN específicos de la aplicación y la implementación de estos modelos en la plataforma de biología generativa de Amgen. "DGX Cloud y BioNeMo proporcionan el rendimiento y la escalabilidad que necesitamos, lo que permite una mayor productividad e impacto. Ya está transformando nuestra forma de trabajar al aumentar notablemente el alcance de lo que puede lograr un equipo de nuestro tamaño", afirma Langmead.

¿Listo para empezar?

Para obtener más información sobre las soluciones de NVIDIA para las ciencias de la salud y la vida, póngase en contacto con nosotros.