Ciencias de la vida

Un nuevo lenguaje molecular para la IA generativa en el descubrimiento de fármacos de moléculas pequeñas

Objetivo

Utilizando su enorme volumen de datos precisos y experimentales, Terray Therapeutics aprovecha NVIDIA DGX TM Cloud para entrenar modelos básicos para la química y la IA generativa para diseñar moléculas pequeñas.

Cliente

Terray Therapeutics

Caso de uso

IA generativa

Productos

NVIDIA Base Command Platform
NVIDIA DGX Cloud
NVIDIA AI Enterprise

El espacio de compuestos químicos es funcionalmente infinito, con más de 1060 - o novendecillón - posibles moléculas similares a fármacos. El objetivo del descubrimiento de fármacos de moléculas pequeñas es explorar este vasto espacio químico en busca de un puñado de moléculas que resuelvan un problema de optimización de múltiples parámetros. Los programas habituales de descubrimiento de fármacos son altamente ineficientes y fundamentalmente restringidos, ya que solo pueden explorar entre unas docenas y unos cientos de compuestos por semana. El objetivo de

Terray Therapeutics es cambiar la forma en que se descubren y desarrollan terapias moleculares pequeñas. La plataforma de la compañía combina de manera única la experimentación y la computación para cumplir con la promesa de la IA generativa del descubrimiento de fármacos de moléculas pequeñas y de soluciones para los desafíos terapéuticos más complejos. Terray cree que los datos escalados de alta calidad son la respuesta para impulsar la IA generativa para moléculas pequeñas. Todo lo que hace la compañía tiene un enfoque iterativo y produce una enorme cantidad de información precisa y creada a tal efecto. Esta permite la optimización generativa de pequeñas moléculas. Con el mismo énfasis en ciencia de laboratorio húmedo e IA, Terray mejora la salud humana mediante la transformación de la velocidad, el coste y la tasa de éxito del desarrollo de medicamentos de pequeñas moléculas.

Terray Therapeutics

Image courtesy of Terray Therapeutics

Desarrollo de modelos de escalado para impulsar miles de millones de puntos de datos

La plataforma Terray mide cientos de millones de interacciones entre moléculas pequeñas y objetivos biológicos diariamente, con una base de datos creciente de 50 mil millones de mediciones biofísicas experimental. Esta precisión permite soluciones novedosas, cribado de objetivos paralelos y acciones rápidas de cabezas de serie con millones de moléculas. El primer paso en el uso de la IA generativa en el descubrimiento de fármacos es tener grandes cantidades de datos experimentales precisos, incluidos muchos puntos de partida prometedores para el diseño de fármacos. Pero igualmente importante es la capacidad de calcular estos datos para diseñar moléculas procesables. Para traducir entre el lenguaje de las moléculas y el lenguaje de cálculo (y viceversa), Terray ha desarrollado COATI, un modelo de codificador-decodificador multimodal para el espacio químico. El modelo convierte las estructuras químicas en representaciones numéricas útiles para procesar datos de manera más eficiente con la IA. La representación numérica de una molécula se puede usar como entrada para "decodificar" o generar, moléculas con propiedades deseadas, que posibilitan el diseño molecular generativo. Cuando Terray era el primer COATI de desarrollo, se usaban una mezcla de sistema, incluidos los servidores basados en GPU y servicios de la nube tradicionales. Al principio, esta infraestructura era funcional, hasta que escalaron los modelos. Conforme los modelos crecieron y se hicieron más complejos, el suministro y la configuración de rondas de formación se volvieron desafiantes. "Me pasaba horas configurando rondas de formación y era muy tedioso", dijo Edward Williams, ingeniero de aprendizaje de máquinas en Terray. "Para la formación de distribuidores, utilizamos torchrun. Conforme escalábamos nuestros modelos, resultaba cada vez más difícil asignar recursos y garantizar que el código de formación estuviera sincronizado en todos los nodos. Realizar el seguimiento y gestionar los fallos era igualmente de tedioso:

si algo fallaba, aprendía después del hecho en vez de hacerlo inmediatamente. El tiempo que llevaba solo el configurar las rondas de formación, el proceso manual de propagar cambios en los nodos, junto con la inhabilidad de saber si podía conseguir un nodo adicional en el que ejecutar mis experimentos, resultaba un impedimento para la experimentación y la habilidad de escalar nuestras acciones de investigación.
    El descubrimiento de medicamentos de moléculas
  • pequeñas implica explorar un espacio químico que es funcionalmente infinito, con enfoques habituales que solo pueden explorar de unas docenas a unos cientos de compuestos por semana.
  • Terray Therapeutics es pionera en la IA generativa para el descubrimiento de medicamentos de moléculas pequeñas. La impulsan datos escalados de gran calidad y una mezcla de experimentación y computación.
  • Terray desarrolló COATI, un modelo de base para la química preentrenado en un conjunto de datos de cientos de millones de moléculas pequeñas. COATI traduce las moléculas en representaciones matemáticas y permite que la IA generativa diseñe moléculas novedosas y optimizadas.
  • NVIDIA DGX Cloud mejoró significativamente el proceso de desarrollo de COATI, reduciendo el entrenamiento del modelo de una semana a solo un día, y permitió una experimentación más eficiente con GPU exclusivas y un escalado de recursos bajo demanda.
  • Usando Platform Base Command™ de NVIDIA, Terray mejoró la utilización de la infraestructura 4 veces mayor debido a la facilidad de configuración de cargas de trabajo y optimización de modelos.

Image courtesy of Terray Therapeutics

NVIDIA DGX Cloud: Plataforma de entrenamiento multi-nodo especializada en IA generativa

"Debido a que queríamos mejorar continuamente nuestra representación invertible del espacio químico, necesitábamos una plataforma que permitiera una rápida experimentación junto con facilidad de gestión" , dijo John Parkhill , director de aprendizaje automático en Terray". DGX Cloud nos ofreció una solución que funcionaba a la perfección con la facilidad y la simplicidad de la nube. Su red de alta velocidad, diseñada especialmente para el entrenamiento de múltiples nodos, fue particularmente crucial para nuestras necesidades. Debido a que estamos tratando con conjuntos de datos de terabytes o más, necesitamos recursos computacionales significativos para entrenar nuestros modelos de manera efectiva. "

Además, la capacidad de realizar experimentos de prueba y error es muy valiosa en nuestra investigación de desarrollo de modelos, ya que identificar los hiperparámetros más

efectivos es a menudo una tarea desafiante

. La ejecución rápida

de trabajos en DGX Cloud nos

permitió identificar rápidamente los fallos y hacer los ajustes necesarios en los modelos . Por ejemplo, pude realizar numerosos estudios de ablación, como deshabilitar las características del modelo, para determinar si, por ejemplo, alterar elementos del tokenizador del transformador es impactante o intrascendente " , dijo Williams".

"Nuestro proceso de configurar los trabajos de entrenamiento iban desde la incomodidad de introducir el código manualmente a máquinas remotas y asegurar la sincronización hasta la simplicidad de presionar "ejecutar" en DGX Cloud. Ni siguiera teníamos que modificar mucho nuestro código ya existente. Con la plataforma de comando Base Command, la orquestación de los trabajos de entrenamiento multinodo era principalmente automatizada para nosotros. Esto nos permitía escalar de una forma que no hubiera sido posible". Tener una asignación de nodos fija en DGX Cloud también creó mayor rendimiento. "Resulta una experiencia pésima el tener que pedir ejemplos de GPU a los servicios de la nube tradicionales que parecen incapaces de poner a disposición. Si necesito un nuevo nodo para un experimento en el que estoy trabajando, no sabría ni si, ni cuándo podría tener uno. Con DGX Cloud, no me tengo que preocupar por eso", afirmó Williams. "Como científico de datos, mi límite ya no está en una pequeña estación de trabajo GPU; es la capacidad de la nube íntegra de Terray. DGX Cloud con Base Command Platform me permite ir de un único nodo a un clúster de 32 GPU con solo pulsar un botón".

Parkhill añadíó. “DGX Cloud nos ofrece el nivel abstracción que necesitan nuestros desarrolladores para que se puedan centrar en la innovación en vez de hacerlo en la infraestructura” Terray aprovecha el enfoque de una solución híbrida, donde pueden entrenar y crear sus modelos en DGX Cloud e implementar y ejecutar inferencia en su clúster in situ con GPU de NVIDIA RTX™ A6000. Conforme las cargas de trabajo aumentan, DGX Cloud ofrece elasticidad y liquidez de recursos. "Los expertos de NVIDIA AI fueron parte fundamental para nuestro éxito", afirmó. "Contamos con un experto especializado que inspeccionaba nuestros registros para asegurar que todo se ejecutaba de forma correcta e identificaba cualquier posible problema. Al identificar optimizaciones de forma directa en PyTorch y CUDA® en las que no habíamos pensado, mejoraron de forma relevante la eficiencia de nuestras cargas de trabajo. Además, nos asistieron en el desarrollo de scripts que aportaron información valiosa a los datos de telemetría, y nos permitieron controlar la actividad de memoria y aumentar el rendimiento. El soporte de los expertos de NVIDIA AI nos permitió cambiar nuestro foco de la optimización del proceso a realizar experimentos, ya que este es principalmente un proyecto de I+D".

"Nuestro proceso de configurar trabajos de entrenamiento pasó de la molestia de enviar código manualmente a máquinas remotas y garantizar la sincronización a la simplicidad de presionar 'ejecutar' en DGX Cloud."

Edward Williams
Ingeniero de Aprendizaje Automático, Terray Therapeutics

"Como científico de datos, mi límite ya no es una pequeña estación de trabajo de GPU; es la capacidad íntegra de la nube de Terray. DGX Cloud con Base Command Platform me permite pasar de un nodo único a un clúster de 32 GPU simplemente pulsando un botón".

John Parkhill,
director de aprendizaje automático, Terray Therapeutics

Estimulación de la experimentación y optimización de modelos con una utilización de recursos 4 veces mayor.

La investigación de moléculas pequeñas es un proceso iterativo que implica el ciclo continuo de diseño, fabricación, prueba, análisis y refinamiento de compuestos para lograr las propiedades deseadas. Parkhill dijo: "La facilidad de uso de DGX Cloud proporcionó un rendimiento excepcional y nos ayudó a iterar más rápido en la evaluación de hiperparámetros para COATI. Esto nos permitió lograr una utilización 4 veces mayor en comparación con los servicios de nube alternativos. Antes nos llevaba una semana entrenar un modelo, y lo conseguíamos en un día".

Parkhill agregó: "Ahora podemos explorar fácilmente el vasto espacio químico para encontrar moléculas raras con propiedades deseadas, como selectividad y potencia. También podemos instruir al modelo para generar candidatos con propiedades específicas para el análisis o descubrir moléculas completamente nuevas que se parecen a las ya conocidas pero tienen características más óptimas".

Encontrar nuevas moléculas que se parezcan a las sintetizadas es importante, porque sirve como importante punto de partida, aprovecha el conocimiento ya existente y la comprensión de las propiedades químicas. Esto permite a los investigadores predecir el comportamiento, incluida la seguridad y eficacia, de forma más efectiva, y acelerar el proceso de desarrollo del medicamento.

"Nuestro modelo mejora con el tiempo conforme generamos cada vez más moléculas en el laboratorio y realizamos entrenamiento iterativo en DGX Cloud".

"El sencillo uso y el rendimiento excepcional de DGX Cloud nos ayudaron a encontrar moléculas objetivo más rápidamente y nos permitió realizar una utilización 4 veces mayor en comparación con los servicios de nube alternativos".

John Parkhill,
director de aprendizaje automático, Terray Therapeutics

Mirando hacia adelante

El campo emergente del diseño y la optimización molecular generativo tiene el potencial de mejorar significativamente la tasa de éxito clínico del desarrollo de moléculas pequeñas. El trabajo pionero de Terray está allanando el camino para la adopción en toda la industria de su modelo innovador.

"La clave de la IA generativa impactante son datos precisos a escala que se pueden iterar rápidamente; y eso lo tenemos en Terray", dijo Narbe Mardirossian, director de tecnología en Terray. "Gracias a DGX Cloud, pudimos desarrollar un lenguaje molecular que permitió la optimización generativa eficiente, restringida y generativa de moléculas para programas en optimización de éxito a líder y líder. Con estas herramientas, esperamos llevar numerosas nuevas terapias a pacientes que las necesitan".

"Solíamos tardar una semana en entrenar a un modelo, y lo estábamos haciendo en un día".

John Parkhill,
director de aprendizaje automático, Terray Therapeutics

Resultados

  • Mejora de la utilización de la infraestructura en más de 4 veces en comparación con servicios en la nube alternativos
  • Tiempo de capacitación reducido de una semana a un día Llevó menos de un día para incorporarse a DGX Cloud
  • Puede entrenar múltiples variantes de COATI en paralelo para encontrar la integración óptima entrenada previamente
  • La forma más rápida de comenzar a usar la plataforma DGX es NVIDIA DGX Cloud, una plataforma de entrenamiento de IA como servicio sin servidor diseñada especialmente para empresas que desarrollan IA generativa.