NVIDIA 影片生成指南

僅使用文字提示生成 AI 影片，對結果的控制有限。本指南可協助你精細控制輸出，確保工作流程在 RTX GPU 上以最快的速度執行。

本指南將示範如何為想要製作的影片建立分鏡腳本，並將其轉換為 4K 高畫質影片，同時完整掌控構圖、視覺呈現與風格。我們首先生成 3D 場景以指導構圖，然後將其轉換為擬真影像，使用這些影像作為首個畫格與末個畫格生成影片。接著使用 NVIDIA RTX 影片超解析度升頻器，能將影片最高升至 4K 解析度。結果生成高解析度 AI 生成的剪輯，完全符合你的構圖、攝影機角度與主體動作。

立即使用

NVIDIA 影片生成工作流程在您的 RTX GPU 本機執行，使用 Blender、ComfyUI、生成式 AI 模型（例如 Black Forest Labs 的 FLUX.1 與 Lightricks 的 LTX-2.3），以及現已於 ComfyUI 提供的全新 RTX 影片超解析度升頻器節點。

工作流程分為三個步驟：從文字提示生成 3D 物體的藍圖、將這些素材用作控制影像生成構成之深度著色器的藍圖，以及在 ComfyUI 中使用首個畫格與末個畫格影像從文字提示生成影片，並使用 RTX Video 升頻輸出的工作流程。

3D 物件生成器藍圖	3D 引導生成式 AI 影像	LTX-2.3 FirstFrame/LastFrame ComfyUI 範本
描述物體、取得預覽，然後選擇所需。使用 Llama 3.1 8B、NVIDIA SANA 與 Microsoft TRELLIS。	在 Blender 設定場景，並使用 FLUX.1 從視埠生成開始與結束畫格。僅限非商業用途。如需商業用途，請聯絡 Black Forest Labs。	使用 LTX-2.3 在數秒內將關鍵畫面轉換為影片。然後使用 ComfyUI 全新的 RTX 影片超解析度節點，在數秒內升頻影片。

創作者可挑選要使用哪個部分的藍圖。若要使用完整流程，建議創作者在進入下一步前先完成各個步驟，以確保系統資源能充分釋放，達到最佳效能。

如果你是 ComfyUI 新手，請依照這篇指南快速掌握：如何在 NVIDIA RTX PC 開始使用視覺生成 AI | NVIDIA 部落格

下載每個藍圖或工作流程的設定說明：

3D Object Generator 藍圖：依照這個 GitHub 的說明進行 (NVIDIA-AI-Blueprints/3d-object-generation)
3D 引導生成式 AI 藍圖：請依照這個 GitHub (NVIDIA-AI-Blueprints/3d-guided-genai-rtx) 的說明進行
可透過 ComfyUI 範本瀏覽器 (若已提供) 或 GitHub 取得LTX-2.3 FirstFrame/LastFrame + RTX 影片升頻器 ComfyUI 範本。

系統需求:

GPU：16GB VRAM (建議使用 NVIDIA GeForce RTX 5070 Ti 或更高版本)
作業系統：Windows 11
系統 RAM：64GB

使用者指南

步驟 1：生成場景素材並打造場景

你可以獨立使用 3D 物體生成藍圖，或是在 Blender 4.2 中生成素材。

以下是如何在 PowerShell 或命令提示字元中以獨立模式啟動的操作提示：

C:\3d-object-generation

conda activate 3dwithtrellis311

python app.py

執行後，請造訪 http://127.0.0.1:7860 並開始生成。輸入你要建置的場景描述。下方的範例使用「太空船艦橋」重現復古未來風的木偶戲片段。

3D 物件生成器 Gradio UI

執行幾次即可為我的版面建立大量素材。使用者也可以直接在 Blender 中建模，並在線上尋找道具素材。確保所有素材都儲存於同一資料夾。

開啟 Blueprint 隨附的範例 Blender 檔案 (文件 >> Blender 選取 MotorCycle_FF_LF.blend 檔案)、刪除道具與場景佈置，然後使用資源匯入器附加元件，一次將所有內容拉入 Blender。你可能需要對物件套用縮放因子。10 倍是一個不錯的建議。

你在這裡建立的版面很重要。攝影機角度、場景深度與主體位置都將直接出現在生成的影片中。

步驟 2：設定 Blender 以進行影像生成，並製作首個關鍵畫面

你已完成 ComfyUI Blender AI 節點的安裝程序，因此現在只要確定其設定並準備執行即可。開啟 Blender 4.5 LTS，並開啟先前建立或編輯的 3D 場景。修改過範例場景後，應該已可在視埠右側看到 ComfyUI Blender AI 節點 (ComfyUI x Blender) 附加元件。按下發佈/Connect to Comfy 前，請確保已正確填充 ComfyUI 節點，為首個畫格與末個畫格 ComfyUI 圖形執行這項操作：

UNET 載入器
- unet 名稱
DualCLIPLoader
- clip_name1
- clip_name2
KSampler
- sampler_name
- 排程器

Blender 的 ComfyUI 節點檢視

按下附加元件的紅色發佈/Connect to ComfyUI 按鈕，等待 30-60 秒讓 Comfy 載入，然後為首個畫格挑選構圖，然後按下「Run」。影像會根據 ComfyUI 圖表的 SaveImage 節點規定，儲存至磁碟。

實際情況是，這張圖表會從 Blender 場景生成深度圖 (灰階影像，對每個元素與攝影機的距離進行編碼)，並與文字提示結合，生成符合確切版面與透視角的擬真影像。它使用嵌入 Blender 的 ComfyUI。影像生成使用 FLUX.1 Depth，在 RTX 透過 NVFP4 加速。

輸入提示並執行。

深度圖與生成的首個畫格

微調提示，直到構圖看起來正確。這張影像是首個畫格。

步驟 3：生成末個關鍵畫格

在 Blender 中，如果有一個動畫場景，請拖曳到你確定為動畫結束的時間點。如果場景是靜態的，可以再加入第二個攝影機並放到位置，同時將其他物件移動到你希望動作結束的位置。以下範例使用了第二個攝影機，將其向窗戶前方移動，以拍攝太空站的畫面：

在 Blender 的 3D 視埠中顯示場景、首個與末個攝影機視圖

進行變更，生成末個畫格：

將 3D Guided 外掛頂部選單改為「末個畫格」，並新增文字提示。
將 ComfyUI 視窗頂端選單變更為末個畫格
編輯檔案名稱，區分末個畫格

在具末個畫格檢視的 Blender 中使用 ComfyUI 節點檢視

按下「Run」並建立末個畫格。

生成的末個畫格

步驟 4：使用 LTX-2.3 生成影片

在 ComfyUI 的範本瀏覽器搜索 LTX，然後選擇 FirstFrame/LastFrame 範本。將首個與末個畫格影像載入對應的輸入節點。編寫影片提示，描述畫格之間的動態。把它寫成一段話，就像你在跟別人解釋某件事一樣。這個專案的範例提示可能為：

「1960 年代電影 Supermarionation 風格」。兩位木偶飛行員操作復古駕駛艙：左側是一位膚色深棕的非裔男性，右側是一位金髮女性，兩人皆穿著黃色連身工作服。他們的角色動作刻意顯得僵硬、生硬、斷斷續續，彷彿受到頭頂無形繩索的束縛。飛行員在整個序列中保持一致的膚色與面部特徵。攝影機穩定地向前推進，穿過駕駛員之間，移向前方的窗戶。外景中，一個僵硬、靜態的微型太空站，配備紅色太陽能板，漂浮在藍色星球的低軌道上；太空站保持完全不變形且堅固。高對比度的工作室光線、可見的模型紋理，以及復古 35mm 膠片顆粒。」

調整 CFG 以觀察提示詞遵循度的變化：將數值從 1 提高到 4 將使生成結果更貼近你的提示詞，但會降低部分創意表現。

提示：雖然並非必要，但撰寫簡短的負面提示可讓生成的結果更接近使用者期望。若要獲得理想的影片效果，可能需要先試驗一下提示與 CFG 值。

請參閱 Lightricks 的實用指南，深入瞭解提示技術：針對 LTX-2 的直接音訊到動作對應 | LTX 部落格

如果你生成了 1280x704 影片且對結果感到滿意，請嘗試以 1920x1088 重新生成。這樣可讓影片畫面更出色。注意 LTX 需要像素尺寸可被 32 整除，因此會出現 704 與 1088 等異常解析度。

步驟 5：透過 RTX Video 升頻至 4K

對於所有 RTX GPU 而言，全新的 RTX 影片超解析度節點會連線至節點圖，透過乘數器縮放輸出影片。這個小模型安裝速度很快，可為你節省時間。

在 ComfyUI 管理器搜索「RTX」，並安裝 RTX Video Super Resolution 節點

ComfyUI 節點管理器，搜索字詞「rtx」

在節點庫搜索「RTX」，然後將 RTX 影片超解析度拖入節點檢視
將 VAE Decode 的 IMAGE 輸出連接至 RTX Video 的 Images 輸入，並將 RTX Video 的 upscale_images 輸出連接至 Create Video 的 images 輸入

RTX 影片超解析度節點連線能力

若要獲得 4k 解析度，請在 1280x720 影片上選擇 3 倍，在 1920x1088 選擇 2 倍。除非需要極速效能，否則請維持使用 ULTRA 畫質。

完成

你已完全在 RTX GPU 上將場景構想轉化為完成的 4K 影片，並實現了純文字影片工具無法提供的對構圖、透視和動作的創意控制。

常見問題

什麼輸入影像能從 TRELLIS 生成最佳 3D 物件？

使用有 1:1 長寬比、純背景或移除背景、中性光線的影像，以及清晰的正面或四分之三視圖。強烈的定向陰影會烘焙到材質中，並造成誤導的表面法線。如果生成的物件剪影清晰，但紋理凌亂，表示來源影像的背景可能複雜或雜亂，請在送入 TRELLIS 前先移除。

如何提高生成的 3D 物件品質？

TRELLIS 有兩個設定可控制品質。稀疏結構取樣步驟定義幾何主幹 (步驟愈多，拓撲愈清晰，邊緣更銳利)，而 Latent Sampling 步驟則控制表面細節與紋理 (步驟愈多，效果愈好)。提高兩者的 CFG 比例，可強制模型更嚴格遵循提示。從預設值開始，如果輸出與你的描述不符，請在此基礎上增加。

SANA 影像預覽應使用哪種解析度？

SANA 已針對 1024x1024 最佳化。如果你希望在迭代過程中更快預覽，請使用 512 或 768。畫質會略微降低，但足以揀選素材。

我可以將 FLUX 換成其他影像模型嗎？

可以！舉例而言，在「載入模型」節點，以較小的模型 (例如 SDXL，取代 FLUX.1-dev)，加速迭代速度 (舉例來說)。打開 ComfyUI 圖表以存取更多條件設定選項，包括正向/負向提示詞及 Wildcards (隨機化變化)，可用於自動切換不同的光線風格。

我應該為 LTX-2.3 使用什麼解析度與畫格數？

以 1280x720 將迭代工作最佳化，並將序列維持在 257 個畫格以下，實現一致性與速度的最佳平衡。準備好後，請嘗試將像素解析度提高至 1920x1080

我應為 LTX-2.3 使用哪些推論設定？

迭代時使用 20-30 個步驟，最終畫質渲染則使用逾 40 個步驟。將 Guidance Scale 設定為 3.0-3.5，在提示連貫與自然動態效果之間取得最佳平衡。

如何設定 RTX 影片超解析度？

根據輸入解析度與目標輸出，設定升頻係數 (1-4)，若要從 720p 轉為 4K，請使用 3。將品質等級設定為 4，可實現最佳邊緣銳化與偽影移除。

如何為 LTX-2.3 影像轉影片撰寫提示？

LTX-2.3 需要使用自然語言，而不是標記清單。影像已包含視覺資訊，提示應描述發生的情況。可靠的結構：鏡頭構圖（「中景特寫，略微向上仰拍」）、光線設定（「黃金時刻，長影」），接著依時間序列呈現動作（「摩托車向前加速，後輪揚起塵土」）。在主語名詞前置入語調與品質單詞。寫 4-6 個句子。請勿重複關鍵畫面中已顯示的內容，因此請描述變更，而不是靜態狀態。

我應該在否定提示中輸入什麼？

保持專注。可靠的起始點：變形、扭曲、歪曲、閃爍、抖動、模糊、偽影、故障、曝光過度、浮水印、文字、字幕。避免列出過長的清單。此外，LTX-2.3 預計不會出現負面提示。

我最後一個畫格與提供的影像不符。如何修復？

這是已知問題。首先，在指南節點將最後畫格強度值提高至 1.0。如果這仍無法解決，請嘗試將最後畫格位置索引設定為 -12 而不是 -1，這會讓模型在結尾前有幾畫格的空間。結束畫格依從性也會在較長的剪輯中下降，因此將序列保持在 5 秒 (121 個畫格) 內，可大幅改善效果。

我的輸出影片全黑。應該先檢查什麼？

三項步驟：首先，請確認畫格數符合 (Nx8)+1 規則 (有效值：49、65、97、121...)。其次，如果你使用的是 FirstFrame/LastFrame 工作流程，請確保在 VAE 解碼節點前新增 LTXVCropGuides。沒有它，引導畫格會破壞解碼，並生成黑色輸出。第三，檢查文字編碼器是否正確載入，遺失 Gemma 編碼器，代表模型沒有調節訊號，會生成黑色或近黑色的畫格。

我的主體外觀在影片中間改變。如何減少這個現象？

Subject Drift 是模型限制，不是錯誤。最有效的緩解措施：將片段最大維持在 5 秒、在提示中一次描述一個清晰的動作，並將 CFG 減少至 3.0-3.5。對於重複出現的角色，針對該主題訓練的 LoRA 可大幅提升生成結果的一致性。