ComfyUI における LTX-2 向けクイック スタート ガイド

CES 2026 で、Lightricks は待望の LTX-2 オーディオビデオモデルのオープン重みを公開し、AI 動画と音声生成分野での大きな前進を示しました。 NVIDIA GPU 向けに最適化された LTX-2 は、業界をリードするオープン重みのオーディオビデオモデルであり、最大 4K 解像度、50 FPS、最大 20 秒のクリップを生成できます。

モデルは BF16 精度でダウンロード可能になりました。ベースモデルは、モデルサイズを約 30% 削減し、RTX GPU で最大 2 倍のパフォーマンスを発揮する量子化された NVFP8 重みでも利用可能になります。

このガイドでは、RTX 最適化 ComfyUI ワークフローを数分で実行できます。

LTX-2 オーディオビデオモデル

LTX-2 は、音声付きの動画を生成するオーディオビデオモデルのファミリーです。発売時には 5 つのチェックポイントが用意されています。

Base: 標準のテキストから動画、または画像から動画へ変換する汎用ジェネレーター。トレーニング可能かつカスタマイズ可能。
8-step: アイデア探求のための高速な反復を可能にする蒸留版のモデル。
カメラコントロール LoRA: カメラの動きを正確に制御するチェックポイントのセット。
潜在アップサンプラー: 最高品質をより早く得るマルチスケールパイプラインに便利です。
IC-LoRAs: 深度、Canny、ポーズの LoRAs により、特定の構図要素をより詳細に制御できます。

クイック開始

ComfyUI をインストールするか、ComfyUI.org から最新バージョンにアップデートします。
テンプレートブラウザーを開き、[動画] に移動し、希望するバージョンの LTX-2 をダウンロードします。
- LTX-2 ベースの場合、NVIDIA GeForce RTX 40 シリーズ、RTX Pro Ada Generation、DGX Spark 以上を所有している場合は、必ず NVFP8 を選択してください。
推奨設定:
- 24GB 以上の GPU では、720p24、4 秒間のクリップで 20 ステップを使用することを推奨します。
- 8 ～ 16GB の GPU では、540p24、20 ステップの 4 秒クリップの使用を推奨します。

VRAM 使用率の最適化

最先端モデルとして、LTX-2 は大量のビデオメモリ (VRAM) を使用し、高品質な成果を提供します。解像度、フレームレート、長さ、またはステップを増加させると、メモリ使用量が増加します。幸いなことに、ComfyUI と NVIDIA は重みストリーミング機能の最適化で協力しており、GPU の VRAM が不足した場合でも、ワークフローの一部をシステムメモリにオフロードできます。ただし、これはパフォーマンスの低下を伴う可能性があります。

ご使用の GPU とユースケースによっては、生成時間が妥当な範囲に収まるように、これらの要因を制限することを検討してください。たとえば、GeForce RTX 5090 GPU は 32GB の VRAM を搭載しており、GPU メモリ内で約 25 秒で 720p 24 fps 4 秒のクリップを生成できます。ただし、ユーザーがより長い 8 秒の動画を生成したい場合、32GB 以上の VRAM が必要となり、自動的に重みストリーミングが開始されるため、生成時間が 3 分間に延びます。

推奨: 動画の反復処理には低い設定を使用して、設定を上げて必要な品質に調整します。経験上、以下のことが最善です。

動画の長さを 4 秒 (16GB 以上) または 3 秒 (12GB 以上) に短縮します。
次に、解像度を 720p (16GB 以上) または 540p (12GB 以上) に下げます。
動画に動きが不要な場合は、フレームレートを 15 FPS に下げてください。

品質の最適化

LTX-2 は、驚異的な動画を生成できる高度なモデルです。ただし、他のモデルと同様に、設定を微調整すると品質に大きな影響を及ぼす場合があります。モデルウェイトが利用可能になると、コミュニティは素晴らしい推奨事項を提案します。しかし、テストで最も役立つことが判明したプロのヒントを以下に紹介します。

解像度: 通常、1080p で最高品質が達成されます。
フレームレート:
- モーション動画は、高い FPS によって大きなメリットを得られます。良好な生成時間を確保するために解像度を下げなければならない場合でも、最大 50 FPS までにより良い結果が得られます。
- 人物やオブジェクトのクローズアップなど、動きの少ない動画は通常 15 FPS で再生可能です。
テキストから画像 vs 画像から画像: 高品質な入力画像を提供することで、通常、出力の品質が向上します。それは、指示された動きが過度に複雑でない間、最初のフレームに明確な視覚的指針を与えるためです。明確な参照または指示がない複雑な動きは、数フレーム後にクリップが予期せずに劣化する原因となることがあります。
ステップ数: テストでは、20 ステップがパフォーマンスと品質の最適なバランスでしたが、30 ステップ以上に増やすことでさらに品質が向上すると考えられます。

ComfyUI における LTX-2 向けクイック スタート ガイド

LTX-2 オーディオ ビデオ モデル

クイック開始

VRAM 使用率の最適化

品質の最適化

ComfyUI における LTX-2 向けクイックスタートガイド

LTX-2 オーディオビデオモデル