Translational Genomics Research Institute (TGen) es un instituto sin ánimo de lucro que se centra en diversas enfermedades, desde la genómica del cáncer hasta la genómica básica de enfermedades complejas. El aumento de datos procedentes de la secuenciación multiómica creó nuevos retos computacionales. Gracias a NVIDIA RAPIDSTM, TGen pudo reducir el tiempo de análisis en conjuntos de datos de 4 millones de células de 10 horas a tres minutos.
TGen
Herramientas y técnicas de computación acelerada
Ciencia de datos
NVIDIA RAPIDS
NVIDIA Parabricks
NVIDIA DGX
Fundado en 2002, TGen, que forma parte del centro de investigación City of Hope, se centra en diversas enfermedades que van desde la neurología genómica y la genómica del cáncer hasta la genómica básica de enfermedades complejas. Como instituto independiente sin ánimo de lucro, el objetivo de TGen es influir en la atención al paciente y realizar investigaciones que aceleren las soluciones traslacionales mediante el uso de la genómica.
Nicholas Banovich, doctor y profesor asociado en la División Integrada de Genómica del Cáncer en TGen, dirige un laboratorio de investigación centrado en los cambios moleculares que impulsan los resultados de la enfermedad, incluidos el inicio, la evolución, el tratamiento y la respuesta de la enfermedad. El trabajo de su equipo se centra principalmente en la fibrosis pulmonar, una enfermedad pulmonar no cancerosa y la oncología.
Más allá de su laboratorio, Banovich también dirige el centro de TGen para la multiómica unicelular y espacial. Como él mismo explica, "Mi función consiste en introducir estas nuevas tecnologías que nos permiten impulsar la multiómica unicelular y espacial, así como colaborar con socios como NVIDIA en enfoques computacionales para el análisis de datos que luego podrían implantarse de manera más amplia fuera de mi laboratorio".
Históricamente, TGen trituraba tejidos, extraía información molecular de todas las células de los tejidos y analizaba esa información en conjunto. Sin embargo, esto planteaba algunos desafíos. "Cada tejido, ya sea de pulmones, corazones o cánceres, no está compuesto de un monolito. Son muy complejos y están formados por diferentes tipos de células", explica Banovich. "Estos tipos de células actúan de forma diferente en relación con la progresión de la enfermedad, los resultados y la respuesta al tratamiento". El equipo de Banovich realizó ensayos masivos y comparó muestras de enfermedad y control antes de usar enfoques unicelulares. Sin embargo, esto no proporcionó el nivel de granularidad necesario a nivel celular. En cambio, estos enfoques solo proporcionaron un promedio de todo lo que sucedía.
Banovich explica: "Cuando comenzamos a usar métodos unicelulares, pudimos hacer comparaciones homogéneas, examinar la lista de cada tipo de célula y determinar qué ocurre en la enfermedad y qué ocurre en el control". Los métodos unicelulares permitieron comprender los fundamentos moleculares de la enfermedad, aunque había otro método que podía aportar aún más información: el espacial.
Evan Mee, bioinformático, División Integrada de Genómica del Cáncer, TGen
"Uno de los efectos más importantes e inmediatos de pasar del análisis unicelular al espacial es que se generan cantidades ingentes de datos", explica Banovich. Para contextualizar la magnitud del aumento de los datos espaciales, el equipo de Banovich realizó la secuenciación unicelular de ARN en el pulmón durante aproximadamente siete años y tomó muestras de más de 200 personas. Como resultado, generaron datos de aproximadamente 2,5 millones de células en total. En un contexto aún más amplio, la totalidad del proyecto Atlas de células pulmonares humanas es de 4 millones de células. TGen utiliza las principales plataformas espaciales, como Vizgen MERSCOPE y 10x Genomics Xenium Analyzer. Con estos instrumentos espaciales,
TGen captura entre 30 000 y 50 000 células por muestra, y una sola ejecución puede generar datos de más de 2 millones de células. "En dos ejecuciones en la plataforma Xenium, básicamente generamos datos de más células que la totalidad del proyecto Atlas de células pulmonares humanas, que supuso una labor de 40 investigadores y 10 países", explica Banovich. "Son cantidades de datos verdaderamente inmensas".
"Hemos creado el analizador Xenium Analyzer para ayudar a investigadores de vanguardia como TGen a pasar rápidamente del instrumento al conocimiento con nuestro potente análisis integrado, habilitado por las GPU de NVIDIA. La combinación de Xenium con NVIDIA RAPIDS acelera aún más nuestros mejores flujos de trabajo y permite realizar análisis más precisos para que los investigadores puedan pasar de la ejecución al resultado y del dato al descubrimiento aún más rápido. La labor de TGen sobrepasa los límites de la ciencia y transforma nuestra comprensión de la salud y la enfermedad. El mundo no puede permitirse esperar a estos descubrimientos", explica Adrian Benjamin, responsable global de marketing espacial en 10x Genomics.
El analizador 10x Genomics Xenium Analyzer. Imagen proporcionada por 10x Genomics.
Desde los datos relacionales que permiten a los investigadores ver dónde se encuentran las células en relación con las demás hasta los datos de imágenes que pueden utilizarse para superponerlos a datos moleculares, la multiómica espacial abre nuevas oportunidades para una comprensión más profunda. Sin embargo, estas nuevas capacidades también plantean nuevos desafíos computacionales. Para TGen era crucial no solo encontrar una manera de abordar estos desafíos, sino también de garantizar que pudieran sacar el máximo provecho de las muestras recibidas de los estudios clínicos.
Los flujos de trabajo estándar para procesar datos unicelulares eran asumibles, ya que el equipo trabajaba con grandes conjuntos de datos de manera poco frecuente. Una vez que el equipo pasó a la espacialidad, se dieron cuenta rápidamente de que se trataba de un desafío mayor. Las primeras ejecuciones de instrumentos de ómica espacial dieron como resultado hasta 10 millones de células. El instrumento Xenium Analyzer, con tecnología NVIDIA, acelera el tiempo de obtención de resultados al realizar análisis integrados y generar formatos de archivo comunes para su uso en herramientas externas. Sin embargo, los flujos de trabajo estándar utilizados para el análisis terciario de componentes principales y de agrupación requerían de 10 a 14 horas.
Por si fuera poco, estos procesos no son fijos. Los datos se ejecutan a través de procesos y los resultados se evalúan si el algoritmo de agrupación ha funcionado como se esperaba. Si no es así, los parámetros se modifican y el proceso se repite. Como explica Banovich, "Esto empieza a ser prohibitivo si cada una de esas iteraciones es un proceso de 10 horas. Nos dimos cuenta de que, incluso con 3 o 4 millones de células, tardábamos demasiado".
Nicholas Banovich, doctor, profesor asociado, División Integrada de Genómica del Cáncer, TGen
"Decidimos analizar la implementación de RAPIDS de Scanpy. En nuestra primera ejecución con RAPIDS, sin ningún tipo de optimización, tardamos de 10 horas a 10 minutos", explica Evan Mee, bioinformático de TGen. "Con un pequeño ajuste adicional, solo tardamos tres minutos en procesar estos datos".
Las muestras de pulmón humano se ejecutan en el analizador 10x Genomics Xenium Analyzer. Imagen proporcionada por TGen.
Más información sobre las soluciones de NVIDIA para la genómica.