Sanidad y ciencias de la vida

Reducción del análisis espacial y unicelular de horas a minutos

Las muestras de pulmón humano se ejecutan en el analizador 10x Genomics Xenium Analyzer y se procesan a través de NVIDIA RAPIDS. Imagen proporcionada por TGen.

Objetivo

Translational Genomics Research Institute (TGen) es un instituto sin ánimo de lucro que se centra en diversas enfermedades, desde la genómica del cáncer hasta la genómica básica de enfermedades complejas. El aumento de datos procedentes de la secuenciación multiómica creó nuevos retos computacionales. Gracias a NVIDIA RAPIDSTM, TGen pudo reducir el tiempo de análisis en conjuntos de datos de 4 millones de células de 10 horas a tres minutos.

Cliente

TGen

Caso de uso

Herramientas y técnicas de computación acelerada
Ciencia de datos

Productos

NVIDIA RAPIDS
NVIDIA Parabricks
NVIDIA DGX

Acerca de TGen

Fundado en 2002, TGen, que forma parte del centro de investigación City of Hope, se centra en diversas enfermedades que van desde la neurología genómica y la genómica del cáncer hasta la genómica básica de enfermedades complejas. Como instituto independiente sin ánimo de lucro, el objetivo de TGen es influir en la atención al paciente y realizar investigaciones que aceleren las soluciones traslacionales mediante el uso de la genómica.

Nicholas Banovich, doctor y profesor asociado en la División Integrada de Genómica del Cáncer en TGen, dirige un laboratorio de investigación centrado en los cambios moleculares que impulsan los resultados de la enfermedad, incluidos el inicio, la evolución, el tratamiento y la respuesta de la enfermedad. El trabajo de su equipo se centra principalmente en la fibrosis pulmonar, una enfermedad pulmonar no cancerosa y la oncología.

Más allá de su laboratorio, Banovich también dirige el centro de TGen para la multiómica unicelular y espacial. Como él mismo explica, "Mi función consiste en introducir estas nuevas tecnologías que nos permiten impulsar la multiómica unicelular y espacial, así como colaborar con socios como NVIDIA en enfoques computacionales para el análisis de datos que luego podrían implantarse de manera más amplia fuera de mi laboratorio".

Más información sobre enfoques unicelulares

Históricamente, TGen trituraba tejidos, extraía información molecular de todas las células de los tejidos y analizaba esa información en conjunto. Sin embargo, esto planteaba algunos desafíos. "Cada tejido, ya sea de pulmones, corazones o cánceres, no está compuesto de un monolito. Son muy complejos y están formados por diferentes tipos de células", explica Banovich. "Estos tipos de células actúan de forma diferente en relación con la progresión de la enfermedad, los resultados y la respuesta al tratamiento". El equipo de Banovich realizó ensayos masivos y comparó muestras de enfermedad y control antes de usar enfoques unicelulares. Sin embargo, esto no proporcionó el nivel de granularidad necesario a nivel celular. En cambio, estos enfoques solo proporcionaron un promedio de todo lo que sucedía.

Banovich explica: "Cuando comenzamos a usar métodos unicelulares, pudimos hacer comparaciones homogéneas, examinar la lista de cada tipo de célula y determinar qué ocurre en la enfermedad y qué ocurre en el control". Los métodos unicelulares permitieron comprender los fundamentos moleculares de la enfermedad, aunque había otro método que podía aportar aún más información: el espacial.

En nuestra primera ejecución con RAPIDS, sin ningún tipo de optimización, tardamos de 10 horas a 10 minutos. Con un pequeño ajuste adicional, solo tardamos tres minutos en procesar estos datos.

Evan Mee, bioinformático, División Integrada de Genómica del Cáncer, TGen

Explosión de datos con la ómica espacial

"Uno de los efectos más importantes e inmediatos de pasar del análisis unicelular al espacial es que se generan cantidades ingentes de datos", explica Banovich. Para contextualizar la magnitud del aumento de los datos espaciales, el equipo de Banovich realizó la secuenciación unicelular de ARN en el pulmón durante aproximadamente siete años y tomó muestras de más de 200 personas. Como resultado, generaron datos de aproximadamente 2,5 millones de células en total. En un contexto aún más amplio, la totalidad del proyecto Atlas de células pulmonares humanas es de 4 millones de células. TGen utiliza las principales plataformas espaciales, como Vizgen MERSCOPE y 10x Genomics Xenium Analyzer. Con estos instrumentos espaciales,

TGen captura entre 30 000 y 50 000 células por muestra, y una sola ejecución puede generar datos de más de 2 millones de células. "En dos ejecuciones en la plataforma Xenium, básicamente generamos datos de más células que la totalidad del proyecto Atlas de células pulmonares humanas, que supuso una labor de 40 investigadores y 10 países", explica Banovich. "Son cantidades de datos verdaderamente inmensas".

"Hemos creado el analizador Xenium Analyzer para ayudar a investigadores de vanguardia como TGen a pasar rápidamente del instrumento al conocimiento con nuestro potente análisis integrado, habilitado por las GPU de NVIDIA. La combinación de Xenium con NVIDIA RAPIDS acelera aún más nuestros mejores flujos de trabajo y permite realizar análisis más precisos para que los investigadores puedan pasar de la ejecución al resultado y del dato al descubrimiento aún más rápido. La labor de TGen sobrepasa los límites de la ciencia y transforma nuestra comprensión de la salud y la enfermedad. El mundo no puede permitirse esperar a estos descubrimientos", explica Adrian Benjamin, responsable global de marketing espacial en 10x Genomics.

El analizador 10x Genomics Xenium Analyzer. Imagen proporcionada por 10x Genomics.

Desafíos computacionales de la ómica espacial

Desde los datos relacionales que permiten a los investigadores ver dónde se encuentran las células en relación con las demás hasta los datos de imágenes que pueden utilizarse para superponerlos a datos moleculares, la multiómica espacial abre nuevas oportunidades para una comprensión más profunda. Sin embargo, estas nuevas capacidades también plantean nuevos desafíos computacionales. Para TGen era crucial no solo encontrar una manera de abordar estos desafíos, sino también de garantizar que pudieran sacar el máximo provecho de las muestras recibidas de los estudios clínicos.

Los flujos de trabajo estándar para procesar datos unicelulares eran asumibles, ya que el equipo trabajaba con grandes conjuntos de datos de manera poco frecuente. Una vez que el equipo pasó a la espacialidad, se dieron cuenta rápidamente de que se trataba de un desafío mayor. Las primeras ejecuciones de instrumentos de ómica espacial dieron como resultado hasta 10 millones de células. El instrumento Xenium Analyzer, con tecnología NVIDIA, acelera el tiempo de obtención de resultados al realizar análisis integrados y generar formatos de archivo comunes para su uso en herramientas externas. Sin embargo, los flujos de trabajo estándar utilizados para el análisis terciario de componentes principales y de agrupación requerían de 10 a 14 horas.

Por si fuera poco, estos procesos no son fijos. Los datos se ejecutan a través de procesos y los resultados se evalúan si el algoritmo de agrupación ha funcionado como se esperaba. Si no es así, los parámetros se modifican y el proceso se repite. Como explica Banovich, "Esto empieza a ser prohibitivo si cada una de esas iteraciones es un proceso de 10 horas. Nos dimos cuenta de que, incluso con 3 o 4 millones de células, tardábamos demasiado".

De cara al futuro, hablamos de generar conjuntos de datos con decenas de millones o incluso cientos de millones de células. La escalabilidad entre conjuntos de datos de ese tamaño solo es posible gracias a esta implementación de RAPIDS.

Nicholas Banovich, doctor, profesor asociado, División Integrada de Genómica del Cáncer, TGen

Asociación con NVIDIA

Como resultado, TGen recurrió a NVIDIA RAPIDS, un conjunto de bibliotecas de código abierto de ciencia de datos e IA aceleradas por GPU que mejora el rendimiento en los procesos de datos.

"Decidimos analizar la implementación de RAPIDS de Scanpy.  En nuestra primera ejecución con RAPIDS, sin ningún tipo de optimización, tardamos de 10 horas a 10 minutos", explica Evan Mee, bioinformático de TGen. "Con un pequeño ajuste adicional, solo tardamos tres minutos en procesar estos datos".

Las muestras de pulmón humano se ejecutan en el analizador 10x Genomics Xenium Analyzer. Imagen proporcionada por TGen.

El ahorro de tiempo también se traduce en una investigación más significativa. En lugar de esperar al control de calidad y a los largos intervalos entre análisis básicos, los miembros del equipo de Banovich pueden realizar un trabajo más satisfactorio. RAPIDS ha cambiado la forma en que Banovich y su equipo realizan el análisis y, en última instancia, llegan a las conclusiones. Poder iterar rápidamente abre las posibilidades para investigaciones futuras. El estudio de grandes conjuntos de datos presenta una imagen más clara en la investigación traslacional. Por ejemplo, los investigadores necesitan observar cómo interactúan las células dentro de sus entornos locales. Con los tipos de células raras, esto requiere sondear un gran número de células, lo que no habría sido factible sin estas plataformas espaciales y los análisis de RAPIDS. Además de comprender los tipos de células raras, ahora es posible construir grandes atlas en tres dimensiones. Los investigadores no solo pueden entender cómo las células interactúan a nivel local, sino que pueden comprender la enfermedad dentro de la arquitectura más grande del tejido y ver cómo progresa a través del sistema, lo que proporciona una visión mucho más granular de la enfermedad. Banovich resume el impacto de NVIDIA en el siguiente capítulo: "A medida que miramos hacia el futuro, hablamos de generar conjuntos de datos con decenas de millones o incluso cientos de millones de células. La escalabilidad en conjuntos de datos de ese tamaño solo es posible gracias a la implementación de RAPIDS".




Más información sobre las soluciones de NVIDIA para la genómica.