在 CES 2026 上,Lightricks 发布了备受期待的 LTX-2 音频视频模型的开放权重版本,标志着 AI 视频和音频生成技术向前迈出了重要一步。LTX-2 针对 NVIDIA GPU 进行优化,是领先的开放权重音频视频模型,能够生成高达 4K 分辨率、50 FPS 且长达 20 秒的视频片段。
上述模型现已提供 BF16 精度模型下载。该基础模型还提供量化的 NVFP8 权重版本,可将模型体积缩小约 30%,并在 RTX GPU 上实现高达 2 倍的性能提升。
本指南将支持您在几分钟内运行经 RTX 优化的 ComfyUI 工作流。
LTX-2 是一系列可生成带音频的视频的音频视频模型。发布时将推出五个 checkpoints 模型文件:
作为前沿模型,LTX-2 通过消耗大量显存 (VRAM) 来实现高质量输出结果。随着分辨率、帧率、时长或步数的增加,显存使用量也会增加。对用户来说幸运的是,ComfyUI 与 NVIDIA 展开了合作,优化了 weight streaming 功能。当 GPU 显存不足时,该功能允许用户将部分工作流程 转移到系统内存 中进行,但这会 牺牲一定的性能。
根据你的 GPU 性能 和 使用场景,你可能需要对这些参数进行适当限制,以确保生成时间保持在合理范围内。例如,GeForce RTX 5090 GPU 拥有 32GB 显存,可以在大约 25 秒内 于 GPU 显存中生成一段 720p、24 帧率、4 秒长度 的视频片段。但是,如果用户想要更长的 8 秒视频,那么生成时间将增加到三分钟,因为这将需要超过 32GB 的显存,并自动启用 weight streaming 功能。
建议:使用较低的设置来迭代视频,然后逐步调高设置参数,将画质调整至理想状态。根据我们的经验,建议您:
LTX-2 是一款先进模型,能够生成效果令人惊叹的视频。但与任何模型一样,调整设置会严重影响视频质量。随着模型权重的逐步开放,社区将涌现出许多精彩推荐,不过根据我们的测试,以下是最有效的专业技巧: