ComfyUI LTX-2 的快速入門指南

Joel Pennington 發表於 2026年1月6日 | 精選文章 指南 RTX AI PCs

Lightricks 在 CES 2026 發布眾所期待的 LTX-2 音訊-視訊模型開放權重,象徵 AI 影音生成技術的一大進展。LTX-2 針對 NVIDIA GPU 最佳化,是領先的開放權重音訊-視訊模型,最高能夠生成 4K 解析度、50 FPS 且長達 20 秒的短片。

BF16 精度的模型現已開放下載。基本模型也提供量化的 NVFP8 權重,將模型縮小約 30%,而且最高可在 RTX GPU 提供快 2 倍的效能。

本指南讓您在幾分鐘內就能用 RTX 最佳化 ComfyUI 工作流程作業。

LTX-2 音訊-視訊模型

LTX-2 這個音訊-視訊模型系列以音訊生成視訊。發布時將有五個檢查點:

  • 基礎:標準文字轉影片或影像轉影片的多功能生成器。可訓練且可自訂。
  • 8 步驟:可快速迭代並探索創意的蒸餾版模型。
  • 攝影機控制 (LoRA):可精確控制攝影機移動的一組檢查點。
  • 潛在上採樣器:是加速獲得最高品質的多尺度管線。
  • IC-LoRA:深度、Canny 邊緣與姿態 LoRA,可更精確控制特定構圖元素。

快速入門

  1. 安裝 ComfyUI 或從 ComfyUI.org 更新至最新版本。
  2. 開啟範本瀏覽器、移至 Video,然後下載所需的 LTX-2 變化版本。
    • 針對 LTX-2 基礎,如果您有 NVIDIA GeForce RTX 40 系列、RTX Pro Ada Generation,或是 DGX Spark 以上版本,請務必選取 NVFP8。
  3. 推薦使用的設定:
    • 在 24 GB 以上的 GPU,建議使用 720p24 的 4 秒片段,搭配 20 個步驟。
    • 在 8-16 GB 的 GPU,建議使用 540p24 的 4 秒片段,搭配 20 個步驟。

將 VRAM 使用量最佳化

LTX-2 這款尖端模型運用大量影片記憶體 (VRAM) 實現優質結果。記憶體用量會隨解析度、畫格率、長度或步驟增加而提升。所幸,對於使用者而言,ComfyUI 與 NVIDIA 已合作將 Weight Streaming 功能最佳化,讓使用者在耗盡 GPU VRAM 時,可將部分工作流程卸載至系統記憶體,但必須犧牲效能。

視 GPU 和使用案例而定,您不妨約束這些因素,確保生成時間在合理範圍內。舉例而言,GeForce RTX 5090 GPU 有 32 GB 的 VRAM,可於大約 25 秒內在 GPU 記憶體生成 720p 24fps 的 4 秒短片。然而,如果使用者需要較長的 8 秒影片,生成時間將增至三分鐘,因為需要 32 GB 以上的 VRAM 並自動啟用權重串流。

建議:使用較低的設定迭代影片,然後調高設定,視需要調整品質。根據經驗,最佳實務如下:

  • 將影片長度縮短至 4 秒 (16GB+) 或 3 秒 (12GB+)。
  • 然後將解析度調低至 720p (16GB+) 或 540p (12GB+)。
  • 如果影片不需要動態畫面,請將畫格率降低至 15 FPS。

品質最佳化

LTX-2 是能夠生成非凡影片的先進模型。但與任何模型一樣,調整設定也會嚴重影響品質。模型權重釋出後,社群一定會分享各種優秀的建議,但我們在測試中發現,以下專業訣竅最為實用:

  • 解析度:通常使用 1080p 可獲得最高品質。
  • 畫格率:
    • 提高 FPS 對動態影片幫助極大。我們發現,提高至 50 FPS 時的成果更優異,即使必須降低解析度才能確保生成時間在理想範圍內。
    • 靜態影片,例如人物或物體的特寫,通常適用 15 FPS。
  • 文字轉影像 vs 影像轉影像:提供高品質的輸入影像通常可提升輸出品質,為前幾個畫格提供清晰的視覺指引,而且提示的動態不會過於複雜。複雜動作若無明確的參考或指示,可能導致短片在幾個畫格後突然劣化。
  • 步驟:在我們的測試中,20 個步驟可在效能與品質之間取得絕佳平衡,但提升至 30 個步驟以上則可提升品質。