用于 ComfyUI 的 LTX-2 快速入门指南

Joel Pennington 发表于 2026年1月6日 | 精选故事 指南 RTX AI PCs

在 CES 2026 上,Lightricks 发布了备受期待的 LTX-2 音频视频模型的开放权重版本,标志着 AI 视频和音频生成技术向前迈出了重要一步。LTX-2 针对 NVIDIA GPU 进行优化,是领先的开放权重音频视频模型,能够生成高达 4K 分辨率、50 FPS 且长达 20 秒的视频片段。

上述模型现已提供 BF16 精度模型下载。该基础模型还提供量化的 NVFP8 权重版本,可将模型体积缩小约 30%,并在 RTX GPU 上实现高达 2 倍的性能提升。

本指南将支持您在几分钟内运行经 RTX 优化的 ComfyUI 工作流。

LTX-2 音频视频模型

LTX-2 是一系列可生成带音频的视频的音频视频模型。发布时将推出五个 checkpoints 模型文件:

  • 基座模型 (Base):标准的文本转视频或图像转视频多功能生成器。可训练且可定制。
  • 8 步蒸馏模型:模型的蒸馏版本,可实现快速迭代,探索各种创意可能。
  • 摄像头控制 LoRA:一组用于精确控制摄像头移动的 checkpoints。
  • 潜空间上采样器:适用于多尺度管道,可更快获取最高质量。
  • IC-LoRAs:深度、Canny 边缘与态势 LoRA 可让您更好地控制特定构图元素。

快速入门

  1. 安装 ComfyUI 或从 ComfyUI.org 更新到最新版本。
  2. 打开模板浏览器,导航至视频,并下载您想要的 LTX-2 版本。
    • 对于 LTX-2 Base 工作流,如果您有 NVIDIA GeForce RTX 40 系列、RTX Pro Ada Generation、DGX Spark 或更高版本,请选择 NVFP8。
  3. 推荐设置:
    • 在 24GB 以上显存的 GPU 上,我们建议使用 720p、24 帧率、4 秒时长、20 步推理 的设置。
    • 在 8 至 16GB 显存的 GPU 上,我们建议使用 540p、24 帧率、4 秒时长、20 步推理 的设置。

优化显存占用

作为前沿模型,LTX-2 通过消耗大量显存 (VRAM) 来实现高质量输出结果。随着分辨率、帧率、时长或步数的增加,显存使用量也会增加。对用户来说幸运的是,ComfyUI 与 NVIDIA 展开了合作,优化了 weight streaming 功能。当 GPU 显存不足时,该功能允许用户将部分工作流程 转移到系统内存 中进行,但这会 牺牲一定的性能。

根据你的 GPU 性能 和 使用场景,你可能需要对这些参数进行适当限制,以确保生成时间保持在合理范围内。例如,GeForce RTX 5090 GPU 拥有 32GB 显存,可以在大约 25 秒内 于 GPU 显存中生成一段 720p、24 帧率、4 秒长度 的视频片段。但是,如果用户想要更长的 8 秒视频,那么生成时间将增加到三分钟,因为这将需要超过 32GB 的显存,并自动启用 weight streaming 功能。

建议:使用较低的设置来迭代视频,然后逐步调高设置参数,将画质调整至理想状态。根据我们的经验,建议您:

  • 将视频时长缩减到 4 秒 (16GB+) 或 3 秒 (12GB+)。
  • 然后将分辨率降低至 720p (16GB+) 或 540p (12GB+)。
  • 如果您的视频不需要动态效果,请将帧率降低至 15 FPS。

优化质量

LTX-2 是一款先进模型,能够生成效果令人惊叹的视频。但与任何模型一样,调整设置会严重影响视频质量。随着模型权重的逐步开放,社区将涌现出许多精彩推荐,不过根据我们的测试,以下是最有效的专业技巧:

  • 分辨率:通常在 1080p 下可输出最高质量。
  • 帧率:
    • 运动画面的视频会显著受益于更高的帧率 (FPS)。我们发现将帧率提升至 50 FPS 时效果更佳,即使这需要降低分辨率来获得合理的生成时间。
    • 静态视频 (如人物或物体特写) 通常以 15 FPS 的帧率运行。
  • 文字生成图像 (Text-to-Image) 与图像生成图像 (Image-to-Image):提供一张高质量的输入图像通常能提升输出效果,因为它能在生成的前几帧中 提供清晰的视觉参考,尤其当提示的运动内容不太复杂 时,效果会更好。如果缺少清晰的参考或指令,复杂的运动可能会导致视频片段在生成几帧后 出现质量下降或失真 的情况。
  • 步数 (Steps):在我们的测试中,20 步 是性能与画质之间的理想平衡点,但如果增加到 30 步或更多,通常可以进一步 提升生成质量。