Guía de Inicio Rápido para LTX-2 en ComfyUI

Por Joel Pennington el 5 de enero de 2026 | Featured Stories Guides RTX AI PCs

En CES 2026, Lightricks lanzó los tan esperados pesos abiertos del modelo de audio y video LTX-2, lo que supone un gran avance en la generación de video y audio mediante IA. Optimizado para las GPUs de NVIDIA, LTX-2 es el modelo de audio y video de pesos abiertos líder, capaz de generar clips de hasta 4K de resolución, 50 FPS y hasta 20 segundos de duración.

Los modelos disponibles para su descarga con precisión BF16. El modelo base también está disponible en pesos NVFP8 cuantificados que reducen el tamaño del modelo en aproximadamente un 30% y pueden ofrecer un rendimiento hasta dos veces más rápido en GPUs RTX.

Esta guía le permitirá empezar a trabajar con un flujo de trabajo ComfyUI optimizado para RTX en cuestión de minutos

Modelo de audio y video LTX-2

LTX-2 es una familia de modelos de audio y video que generan video s con audio. Hay cinco puntos de control disponibles en el lanzamiento:

  • Base: el generador versátil estándar de texto a video o imagen a video. Entrenable y personalizable.
  • 8 pasos: una versión simplificada del modelo que permite una rápida iteración para la exploración de ideas.
  • Control de cámara LoRA: un conjunto de puntos de control que permiten un control preciso del movimiento de la cámara.
  • Upsampler latente: útil para procesos multiescala que obtienen la máxima calidad más rápidamente.
  • IC-LoRA: LoRA de profundidad, canny y pose para ofrecer un mayor control sobre elementos compositivos específicos.

Inicio rápido

  1. Instala ComfyUI o actualice a la última versión desde ComfyUI.org.
  2. Abra el navegador de plantillas, vaya a Video y descargue la variante de LTX-2 que desee.
    • Para la base LTX-2, asegúrate de seleccionar NVFP8 si tienes una NVIDIA GeForce RTX Serie 40, RTX Pro Ada Generation, una DGX Spark o superior.
  3. Configuración recomendada:
    • En GPUs de 24 GB o más, recomendamos utilizar clips de 720p24 y 4 segundos con 20 pasos.
    • En GPUs de 8-16 GB, recomendamos utilizar clips de 540p24 y 4 segundos con 20 pasos.

Optimización del uso de VRAM

Como modelo de vanguardia, LTX-2 utiliza una cantidad significativa de memoria de video (VRAM) para ofrecer resultados de calidad. El uso de la memoria aumenta a medida que aumentamos la resolución, la velocidad de fotogramas, la duración o los pasos. Afortunadamente para los usuarios, ComfyUI y NVIDIA han colaborado para optimizar una función de transmisión de peso, lo que permite a los usuarios descargar partes del flujo de trabajo a la memoria del sistema si su GPU se queda sin VRAM, pero esto tendrá un impacto en el rendimiento.

Dependiendo de la GPU y del caso de uso, es posible que desee limitar estos factores para garantizar tiempos de generación razonables. Por ejemplo, las GPUs GeForce RTX 5090 tienen 32 GB de VRAM y pueden generar un clip de 720p, 24 fps y 4 segundos dentro de la memoria de la GPU en unos 25 segundos. Sin embargo, si un usuario desea un video más largo, de 8 segundos, el tiempo de generación aumentará a tres minutos, ya que requerirá más de 32 GB de VRAM y activará automáticamente la transmisión dinámica.

Recomendación: utiliza una configuración más baja para iterar en tu video y, a continuación, aumente la configuración para ajustar la calidad a la que desee. Según nuestra experiencia, lo mejor es:

  • Reducir la duración del video a 4 segundos (16 GB+) o 3 segundos (12 GB+).
  • A continuación, reducir la resolución a 720p (16 GB+) o 540p (12 GB+).
  • Si tu video no requiere movimiento, reduzca la velocidad de fotogramas a 15 FPS.

Optimización de la calidad

LTX-2 es un modelo avanzado capaz de generar videos increíbles. Pero, como con cualquier modelo, ajustar la configuración tendrá un gran impacto en la calidad. La comunidad ofrecerá recomendaciones fantásticas a medida que las ponderaciones del modelo estén disponibles, pero aquí hay algunos consejos profesionales que nos han resultado más útiles en nuestras pruebas:

  • Resolución: la máxima calidad se suele conseguir con 1080p.
  • Velocidad de fotogramas:
    • Los videos en movimiento se benefician mucho de una mayor velocidad de fotogramas. Observamos mejores resultados al subir a 50 FPS, incluso si eso nos obliga a reducir la resolución para obtener buenos tiempos de generación.
    • Los videos estáticos, como los primeros planos de una persona o un objeto, suelen funcionar a 15 FPS.
  • Texto a imagen frente a imagen a imagen: Proporcionar una imagen de entrada de alta calidad suele mejorar la calidad del resultado, ya que proporciona una guía visual clara en los primeros fotogramas, siempre que el movimiento solicitado no sea demasiado complejo. Un movimiento complicado sin una referencia o instrucción clara puede hacer que el clip se degrade inesperadamente después de unos pocos fotogramas.
  • Pasos: en nuestras pruebas, 20 pasos fue el punto óptimo entre rendimiento y calidad, pero subir a 30 pasos o más debería aumentar la calidad.