Sanidad y biociencias

Mejora de la precisión y la velocidad de la secuenciación de lectura larga

Objetivo

Aumento del rendimiento y la precisión de los instrumentos de próxima generación, al mismo tiempo que se mantienen las restricciones de potencia, espacio y costes necesarios.

Cliente

PacBio

Caso de uso

Informática de borde

Productos

NVIDIA Parabricks
Sistemas certificados por NVIDIA

Mejora de la velocidad y precisión de los instrumentos con la computación acelerada de NVIDIA

La secuenciación de fragmentos de ADN largos, conocida como secuenciación de lectura larga, se presentó como el método del año en la edición de enero de 2023 de Nature Methods, y PacBio se mencionó como líder destacado en el espacio. Desde su fundación en 2004, PacBio ha logrado una huella global significativa con sus sistemas de secuenciación avanzados implementados en más de 40 países, con un total de más de 1000 unidades vendidas. La cartera de propiedad intelectual de la empresa incluye más de 400 patentes estadounidenses emitidas y su influencia y relevancia en la comunidad científica se menciona en más de 9000 citas en varias publicaciones.

PacBio crea soluciones de secuenciación avanzadas para ayudar a científicos e investigadores clínicos a resolver problemas genéticamente complejos en la secuenciación de la línea germinal humana, las ciencias vegetales y animales, las enfermedades infecciosas, la oncología y otras aplicaciones emergentes. Su tecnología patentada para la secuenciación de lectura larga genera lecturas de hasta 20 kilobases de longitud, lo que supera ampliamente la longitud de lectura habitual de menos de 300 bases producida por los métodos de secuenciación de lectura corta. Esto permite un mapeo más completo y preciso de regiones complejas del genoma que pueden pasarse por alto a través de la secuenciación de lectura corta, lo que ayuda a avanzar en la investigación en varios campos, incluida la genética de enfermedades y la biología evolutiva.

Aspectos destacados

  • PacBio incorporó la GPU NVIDIA A100 Tensor Core en su sistema Revio con objeto de acelerar la velocidad y la precisión de la secuenciación de lectura larga, a la vez que minimizar los costes.
  • Potencia de cómputo: Revio con GPU NVIDIA A100 ofrece una potencia de informática 20 veces mayor que Sequel IIe de PacBio.
  • Deep learning: PacBio ha incorporado GPU para llamadas base, aumentado el rendimiento con la secuenciación de consenso circular (CCS) y mejorado la precisión con el modelo DeepConsensus.
  • Facilidad de uso: Revio ofrece una reducción del 50 por ciento en consumibles, junto a la capacidad de carga por adelantado.
  • Asequibilidad: Revio secuencia un genoma HiFi humano por menos de 1000 dólares, carga instrumentos en menos de un minuto y disminuye el tamaño del archivo en más del 50 por ciento.
  • Alto rendimiento: Revio puede secuenciar 1300 genomas humanos completos anualmente con una cobertura 30 veces superior.

Image courtesy of PacBio.
PacBio’s Revio long-read sequencing system.

Sistema Revio de PacBio: secuenciación de lectura larga acelerada por GPU

Una piedra angular de la tecnología de lectura larga de PacBio es su alta precisión, calidad y cobertura de genomas, lo que se manifiesta en su secuenciación de lectura larga de alta fidelidad (HiFi), una potente herramienta utilizada para investigar grandes genomas o características transcriptómicas a un solo nivel molecular de ADN o ARN. Un aspecto esencial de la generación de datos de lectura larga es el proceso de llamada base, que es crucial para determinar secuencias de nucleótidos de moléculas de ADN complejas y largas. Sin embargo, esto requiere cuantiosos recursos computacionales, dada la necesidad de generar una secuencia de consenso para cada molécula, un proceso que luego se ejecuta a través de millones de moléculas.

El secuenciador de lectura larga Sequel IIe de PacBio se ha diseñado con computación basada en CPU. Aunque era funcional, alcanzó un umbral de rendimiento que limitó su rendimiento óptimo y, consecuentemente, su utilidad para los clientes comerciales. Para abordar esta limitación, PacBio introdujo el sistema Revio con GPU NVIDIA A100. Este avance permitió un aumento significativo en la potencia computacional dentro del mismo dispositivo. Como resultado de esta transición a GPU NVIDIA, junto con NVIDIA® CUDA® para la optimización del código, PacBio pudo acelerar las llamadas base, lo que dio lugar a un aumento del rendimiento global y de la eficiencia del proceso de secuenciación. 

Estas tecnologías también aceleraron significativamente la secuenciación de consenso circular (CCS) en el sistema Revio. La secuenciación repetida de moléculas de ADN circularizado para generar lecturas de alta precisión requería una potencia y un tiempo de procesamiento considerables, lo que limitó el rendimiento general y la eficiencia del secuenciador. Como Revio utilizaba GPU de NVIDIA, PacBio pudo reducir el proceso de CCS de más de 15 horas a 2,5 horas, lo que se tradujo en un ahorro de tiempo, mayor productividad y mayor viabilidad comercial de la secuencia de Revio para los clientes.

Adición de un modelo de deep learning para mejorar la precisión

 

Después de la optimización de la GPU de CCS, el análisis fue lo suficientemente rápido como para incorporar flujos de trabajo adicionales mientras se mantenía el rendimiento del instrumento. Esto le dio a PacBio la oportunidad de implementar flujos de trabajo acelerados por la GPU para mejorar aún más la precisión de lectura larga, sin inversión adicional en hardware.

El modelo DeepConsensus, un transformador solo para codificador, se implementó y se optimizó en las GPU A100, lo que creó una solución robusta en el instrumento. Así, se logró un tiempo más corto para lecturas HiFi de alta precisión, de 30 horas en la Sequel IIe basada en la CPU a 24 horas en la Revio. Como resultado de la aceleración de la GPU y los flujos de trabajo agregados al instrumento, PacBio logra una precisión del 99,9 por ciento con la secuenciación HiFi en Revio y puede escalar a hasta 1300 genomas humanos por año. Revio es el primer secuenciador de PacBio en incluir las GPU NVIDIA, lo que multiplica por 20 veces la potencia de cómputo en comparación con la Sequel IIe.

Los clientes que utilizan Revio pueden utilizar aún más el conjunto de NVIDIA Parabicks® del estándar industrial acelerado por GPU y las herramientas de análisis genómico de deep learning para la alineación y la llamada variante. DeepVariant se ha acelerado en las GPU como parte de Parabricks y ofrece una llamada variante muy precisa para lecturas HiFi. Una secuenciación HiFi del genoma completo (WGS) de 35 veces de cobertura tarda 313 minutos en un servidor de CPU y solo ocho minutos con DeepVariant en Parabricks en un servidor con GPU NVIDIA A100.

 

"Nuestros clientes han transformado la genómica con la potencia de la secuenciación HiFi. Revio, que utiliza tecnologías NVIDIA, libera aún más ese potencial al agregar un alto rendimiento y asequibilidad. Combinado con avances significativos en computación, Revio ofrecerá tiempos de ejecución cortos y multiplicará por 15 los datos de HiFi".

Christian Henry
CEO y presidente de PacBio

Image courtesy of PacBio.

Cronología de mejoras en el análisis SMRT posprimario de datos celulares de PacBio. El tiempo de procesamiento objetivo para que CCS conservara el rendimiento del instrumento fue de 10 horas. A medida que se optimizaron pasos adicionales como el pulido, la asignación y el ordenamiento en la GPU, se ganó suficiente tiempo para agregar el análisis DeepConsensus basado en transformadores para mejorar la precisión de la lectura HiFi. El resultado final del proceso de análisis optimizado por GPU no solo supera los requisitos de rendimiento para el sistema, sino que ha mejorado la precisión general.

Revio avanza en genómica mundial con tecnologías NVIDIA

La mejora en el rendimiento y la precisión logrados con las tecnologías NVIDIA ha demostrado ser valiosa por la amplia adopción de Revio. Desde su lanzamiento en octubre de 2022, Revio se han instalado en todo el mundo, incluida en la Universidad de Medicina y Ciencias de la Salud Mohammed Bin Rashid (MBRU) de Dubái, para impulsar el descubrimiento de la medicina genómica en enfermedades raras y cánceres; en el Instituto Wellcome Sanger del Reino Unido, para potenciar el proyecto Darwin Tree of Life y aumentar las lecturas largas en aplicaciones humanas; y en el Centro Médico de la Universidad Radboud (UMC), para aumentar su secuenciación a miles de genomas.

A través de la transición de flujos de trabajo de CPU a GPU, PacBio desarrolló un instrumento de mayor alcance que ofrece rentabilidad, mayor potencia de cómputo y mejoras de precisión impulsadas por IA. Estos avances son fundamentales para crear su próxima generación de secuenciadores genómicos que puedan escalar de manera eficiente en cuanto a las demandas de los clientes en aplicaciones médicas y de investigación.

¿Lo tienes todo listo para aprender más?

Para obtener más información sobre las soluciones de NVIDIA para la asistencia sanitaria y las ciencias de la vida, póngase en contacto con nosotros.