ComfyUI 기반 LTX-2 빠른 시작 가이드

작성자: Joel Pennington, 2026년 1월 6일 화요일 | 추천 스토리 가이드 RTX AI PCs

CES 2026에서 Lightricks는 큰 기대를 모았던 LTX-2 오디오-비디오 모델의 오픈 웨이트를 공개하며, AI 영상 및 오디오 생성 분야에서 중요한 진전을 이뤘습니다. NVIDIA GPU에 최적화된 LTX-2는 최대 4K 해상도, 50FPS, 최대 20초 길이의 클립을 생성할 수 있는 선도적인 오픈 웨이트 오디오-비디오 모델입니다.

해당 모델들은 현재 BF16 정밀도로 다운로드할 수 있습니다. 기본 모델은 모델 크기를 약 30% 줄이고 RTX GPU에서 최대 2배 빠른 성능을 제공하는 양자화된 NVFP8 가중치로도 이용 가능합니다.

이 가이드는 RTX 최적화 ComfyUI 워크플로우를 몇 분 안에 실행할 수 있도록 도와줍니다.

LTX-2 오디오-비디오 모델

LTX-2는 오디오와 함께 영상을 생성하는 오디오-비디오 모델 제품군입니다. 출시와 함께 다섯 개의 체크포인트가 제공됩니다.

  • 기본: 표준 텍스트-영상 또는 이미지-영상 변환이 가능한 다목적 생성기입니다. 학습 및 커스터마이징이 가능합니다.
  • 8단계: 아이디어 탐색을 위한 빠른 반복 작업이 가능한 모델의 경량화 버전입니다.
  • 카메라 제어 LoRA: 카메라 움직임을 정확하게 제어할 수 있는 체크포인트 세트입니다.
  • 잠재 업샘플러: 최고 품질의 결과를 더 빠르게 얻을 수 있는 멀티스케일 파이프라인에 유용합니다.
  • IC-LoRAs: 특정 구도 요소에 대해 더 많은 제어력을 제공하는 깊이, 캐니, 및 포즈 LoRAs입니다.

빠른 시작

  1. ComfyUI를 설치하거나 ComfyUI.org에서 최신 버전으로 업데이트하세요.
  2. 템플릿 브라우저를 열고 영상으로 이동하여 원하는 버전의 LTX-2를 다운로드하세요. 
    • LTX-2 베이스의 경우, NVIDIA GeForce RTX 40 시리즈, RTX Pro Ada Generation, DGX Spark 이상 모델을 사용하는 경우 반드시 NVFP8을 선택해 주시기 바랍니다.
  3. 권장 설정:
    • 24GB 이상의 GPU에서는 720p24 해상도의 4초 클립을 20단계로 사용할 것을 권장합니다.
    • 8-16GB GPU에서는 540p24 해상도의 4초 클립을 20단계로 사용할 것을 권장합니다.

VRAM 사용량 최적화

프런티어 모델인 LTX-2는 고품질 결과들을 생성하기 위해 상당한 양의 비디오 메모리(VRAM)를 사용합니다. 해상도, 프레임 레이트, 길이 또는 단계를 높일수록 메모리 사용량이 증가합니다. 사용자들에게 다행스럽게도, ComfyUI와 NVIDIA의 협업으로 가중치 스트리밍 기능이 최적화되었으며, 덕분에 GPU의 VRAM이 부족할 경우 워크플로의 일부를 시스템 메모리로 오프로드할 수 있지만, 이로 인해 성능 저하가 발생할 수 있습니다.

사용 중인 GPU와 사용 사례에 따라, 적절한 생성 시간을 보장할 수 있도록 이러한 요소들을 조절하여 제한하는 것이 좋습니다. 예를 들어, GeForce RTX 5090 GPU는 32GB의 VRAM를 탑재하고 있어, 720p 24fps의 4초 클립을 GPU 메모리 내에서 약 25초 만에 생성할 수 있습니다. 그러나 사용자가 8초 길이의 더 긴 영상을 원하는 경우, 32GB 이상의 VRAM이 필요하여 가중치 스트리밍이 자동으로 활성화되므로 생성 시간은 3분까지 늘어납니다.

권장 사항: 낮은 설정으로 영상 작업을 반복하며 테스트한 후, 설정을 높여 원하는 품질로 세부 조정하시기 바랍니다. 경험상 가장 적합한 방법은 다음과 같습니다.

  • 영상 길이를 4초(16GB 이상) 또는 3초(12GB 이상)로 줄이세요.
  • 그런 다음 해상도를 720p(16GB 이상) 또는 540p(12GB 이상)로 낮춰 줍니다.
  • 영상에 움직임이 많지 않다면, 프레임 레이트를 15FPS로 낮춰 줍니다.

품질 최적화

LTX-2는 놀라운 영상을 제작할 수 있는 최첨단 모델입니다. 하지만 여느 모델이 그렇듯, 세부 설정 조정은 결과들의 품질에 큰 영향을 미칩니다. 모델 가중치가 배포되면 커뮤니티에서 훌륭한 권장 설정들이 나오겠지만, 우선 저희가 테스트하며 가장 효과적이었던 전문가 팁 몇 가지를 소개해 드립니다.

  • 해상도: 일반적으로 1080p에서 최고 품질을 얻을 수 있습니다.
  • 프레임 레이트:
    • 모션 영상은 높은 FPS에서 최상의 결과가 나옵니다. 원활한 생성 속도를 위해 해상도를 낮추더라도, 프레임 레이트를 50FPS까지 높여주는 것이 훨씬 더 나은 결과를 보여줍니다.
    • 인물이나 사물의 클로즈업과 같은 정적인 영상은 보통 15FPS로 재생됩니다.
  • 텍스트-이미지 변환 대 이미지-투-이미지: 고품질 입력 이미지를 제공하면 일반적으로 결과물의 품질이 향상됩니다. 입력된 모션이 너무 복잡하지만 않다면, 이미지가 첫 프레임에 명확한 시각적 가이드를 제공하기 때문입니다. 명확한 기준이나 지침 없는 복잡한 움직임은 몇 프레임 뒤 클립의 품질을 예기치 않게 저하시킬 수 있습니다.
  • 단계: 테스트 결과 20단계가 성능과 품질 사이의 최적의 지점이었지만, 30단계 이상으로 높이면 품질이 더욱 향상됩니다.