用于 ComfyUI 的 LTX-2 快速入门指南

在 CES 2026 上，Lightricks 发布了备受期待的 LTX-2 音频视频模型的开放权重版本，标志着 AI 视频和音频生成技术向前迈出了重要一步。LTX-2 针对 NVIDIA GPU 进行优化，是领先的开放权重音频视频模型，能够生成高达 4K 分辨率、50 FPS 且长达 20 秒的视频片段。

上述模型现已提供 BF16 精度模型下载。该基础模型还提供量化的 NVFP8 权重版本，可将模型体积缩小约 30%，并在 RTX GPU 上实现高达 2 倍的性能提升。

本指南将支持您在几分钟内运行经 RTX 优化的 ComfyUI 工作流。

LTX-2 音频视频模型

LTX-2 是一系列可生成带音频的视频的音频视频模型。发布时将推出五个 checkpoints 模型文件：

基座模型 (Base)：标准的文本转视频或图像转视频多功能生成器。可训练且可定制。
8 步蒸馏模型：模型的蒸馏版本，可实现快速迭代，探索各种创意可能。
摄像头控制 LoRA：一组用于精确控制摄像头移动的 checkpoints。
潜空间上采样器：适用于多尺度管道，可更快获取最高质量。
IC-LoRAs：深度、Canny 边缘与态势 LoRA 可让您更好地控制特定构图元素。

快速入门

安装 ComfyUI 或从 ComfyUI.org 更新到最新版本。
打开模板浏览器，导航至视频，并下载您想要的 LTX-2 版本。
- 对于 LTX-2 Base 工作流，如果您有 NVIDIA GeForce RTX 40 系列、RTX Pro Ada Generation、DGX Spark 或更高版本，请选择 NVFP8。
推荐设置：
- 在 24GB 以上显存的 GPU 上，我们建议使用 720p、24 帧率、4 秒时长、20 步推理的设置。
- 在 8 至 16GB 显存的 GPU 上，我们建议使用 540p、24 帧率、4 秒时长、20 步推理的设置。

优化显存占用

作为前沿模型，LTX-2 通过消耗大量显存 (VRAM) 来实现高质量输出结果。随着分辨率、帧率、时长或步数的增加，显存使用量也会增加。对用户来说幸运的是，ComfyUI 与 NVIDIA 展开了合作，优化了 weight streaming 功能。当 GPU 显存不足时，该功能允许用户将部分工作流程转移到系统内存中进行，但这会牺牲一定的性能。

根据你的 GPU 性能和使用场景，你可能需要对这些参数进行适当限制，以确保生成时间保持在合理范围内。例如，GeForce RTX 5090 GPU 拥有 32GB 显存，可以在大约 25 秒内于 GPU 显存中生成一段 720p、24 帧率、4 秒长度的视频片段。但是，如果用户想要更长的 8 秒视频，那么生成时间将增加到三分钟，因为这将需要超过 32GB 的显存，并自动启用 weight streaming 功能。

建议：使用较低的设置来迭代视频，然后逐步调高设置参数，将画质调整至理想状态。根据我们的经验，建议您：

将视频时长缩减到 4 秒 (16GB+) 或 3 秒 (12GB+)。
然后将分辨率降低至 720p (16GB+) 或 540p (12GB+)。
如果您的视频不需要动态效果，请将帧率降低至 15 FPS。

优化质量

LTX-2 是一款先进模型，能够生成效果令人惊叹的视频。但与任何模型一样，调整设置会严重影响视频质量。随着模型权重的逐步开放，社区将涌现出许多精彩推荐，不过根据我们的测试，以下是最有效的专业技巧：

分辨率：通常在 1080p 下可输出最高质量。
帧率：
- 运动画面的视频会显著受益于更高的帧率 (FPS)。我们发现将帧率提升至 50 FPS 时效果更佳，即使这需要降低分辨率来获得合理的生成时间。
- 静态视频 (如人物或物体特写) 通常以 15 FPS 的帧率运行。
文字生成图像 (Text-to-Image) 与图像生成图像 (Image-to-Image)：提供一张高质量的输入图像通常能提升输出效果，因为它能在生成的前几帧中提供清晰的视觉参考，尤其当提示的运动内容不太复杂时，效果会更好。如果缺少清晰的参考或指令，复杂的运动可能会导致视频片段在生成几帧后出现质量下降或失真的情况。
步数 (Steps)：在我们的测试中，20 步是性能与画质之间的理想平衡点，但如果增加到 30 步或更多，通常可以进一步提升生成质量。