NVIDIA 视频生成指南

仅靠文本提示生成 AI 视频，对最终效果的可控性十分有限。本指南将助你实现对输出内容的精细控制，并确保工作流在 RTX 显卡上尽可能高效地运行。

本指南向用户展示了如何为您想要创作的视频生成故事板，并将其转换为 4K 高质量视频，同时还能实现对构图、外观和风格的控制。我们首先生成一个 3D 场景，用于引导构图，然后将其转换为逼真图像，再将这些图像作为首帧和尾帧生成视频。随后，将使用 NVIDIA RTX Video 超分辨率将视频提升至 4K 分辨率。最终得到了一段高分辨率的 AI 生成视频片段，能够完全符合的你精确构图、镜头角度和主体运动。

入门指南

NVIDIA 视频生成工作流在你的 RTX GPU 上本地运行，使用 Blender、ComfyUI、来自 Black Forest Labs 的 FLUX.1 和 Lightricks 的 LTX-2.3 等生成式 AI 模型，以及 ComfyUI 中现已提供的全新 RTX Video 超分辨率节点。

该工作流分为三个步骤：一个根据文本提示词生成 3D 物体的 Blueprint、一个利用这些资产作为深度着色器来控制图像生成构图的 Blueprint，以及 ComfyUI 中使用首帧和尾帧图像根据文本提示词生成视频并使用 RTX Video 提升输出分辨率的工作流。

3D 对象生成 Blueprint	3D 引导生成式 AI 图像	LTX-2.3 首帧/尾帧 ComfyUI 模板
描述对象，获取预览，并挑选所需内容。使用 Llama 3.1 8B、NVIDIA SANA 和 Microsoft TRELLIS。	在 Blender 中搭建场景，并使用 FLUX.1 从视口生成起始帧和结束帧。仅限非商业用途。如需商业用途，请联系 Black Forest Labs。	使用 LTX-2.3，在数秒内即可将关键帧转换为视频。然后使用 ComfyUI 的全新 RTX Video 超分辨率节点，在数秒内将视频提升至更高分辨率。

创作者可以挑选自己想要使用的 Blueprint 部分。如果打算使用完整工作流，我们建议创作者先完成当前步骤，然后再进入下一步，以确保完整系统资源可用，从而获得最佳性能。

如果你刚刚接触 ComfyUI，请按照以下指南快速上手：如何在 NVIDIA RTX PC 上开始使用视觉生成式 AI | NVIDIA 博客

各 Blueprint 或工作流的下载和设置说明：

3D 对象生成器 Blueprint：按照此 GitHub 上的说明操作 (NVIDIA-AI-Blueprints/3d-object-generation)
3D 引导生成式 AI Blueprint：按照此 GitHub 上的说明操作 (NVIDIA-AI-Blueprints/3d-guided-genai-rtx)
LTX-2.3 FirstFrame/LastFrame + RTX Video Upscaler ComfyUI 模板，可通过 ComfyUI 模板浏览器 (如可用) 或通过 GitHub 获取。

系统要求：

GPU：16GB 显存 (推荐 NVIDIA GeForce RTX 5070 Ti 或更高版本)
操作系统：Windows 11
系统内存：64GB

用户指南

第 1 步：生成场景素材并构建场景

使用 3D 物体生成 Blueprint 生成资产，可独立运行，也可在 Blender 4.2 中使用。

以下说明了如何在 PowerShell 或命令提示词中以独立方式启动它的方式：

C:\3d-object-generation

conda activate 3dwithtrellis311

python app.py

运行后，请访问 http://127.0.0.1:7860 即可开始生成。输入你要构建的场景的说明。下方示例使用“飞船舰桥”来重现一段复古未来主义风格的木偶表演片段。

3D 物体生成器 Gradio 用户界面

多运行几次，为场景布局创建丰富的素材集合。用户还可以直接在 Blender 中建模，并在线查找道具。确保所有素材都保存在同一文件夹中。

打开 Blueprint 附带的 Blender 示例文件 (文档 >> Blender 选择 MotorCycle_FF_LF.blend 文件)，删除其中的道具和布景装饰，然后使用资产导入插件一次性将所有内容导入到 Blender 中。你可能需要为物体设置缩放因子，建议设置为 10 倍。

你在此建立的布景非常重要。镜头角度、场景深度和主体位置都会直接延续到最终生成的视频中。

第 2 步：设置 Blender 生成图像并创建首个关键帧

你已经完成 ComfyUI Blender AI 节点的安装过程，所以现在我们只需确保它已完成配置并可正常运行。打开 Blender 4.5 LTS，然后打开你之前构建或编辑的 3D 场景。由于你已修改了示例场景，因此你应该已经可以在视口右侧看到 ComfyUI Blender AI 节点 (ComfyUI x Blender) 插件。在点击“发布/连接至 Comfy”之前，请先确认 ComfyUI 节点中的参数已正确填写，并对首帧和尾帧 ComfyUI 图形进行此操作：

UNET Loader
- unet Name
DualCLIPLoader
- clip_name1
- clip_name2
KSampler
- sampler_name
- scheduler

Blender 中的 ComfyUI 节点视图

按下插件中的红色“发布/连接至 ComfyUI”按钮，等待 30-60 秒让 Comfy 加载，然后为首帧挑选构图，按下“运行”。图像将按照 ComfyUI 图形中 SaveImage 节点的设置保存到磁盘。

该工作流会根据 Blender 场景生成深度图 (即一张用灰度信息编码各元素与镜头距离的图像)，并结合文本提示词，生成与场景布局和透视关系精确匹配的照片级写实图像。它使用 Blender 中嵌入的 ComfyUI。图像生成使用 FLUX.1 Depth，由 RTX 上的 NVFP4 加速。

输入提示词并运行。

第 3 步：生成最后一个关键帧

在 Blender 中，如果有一个动画场景，请拖动至您确定为动画结束的时间点。如果有静态场景，就添加第二个相机并将其放置到位，同时将其他物体移动到你希望结束动作的位置。下面的示例使用了第二个镜头，该镜头向前移动到窗户上，以便拍到空间站的镜头：

Blender 中的 3D 视口显示场景以及首尾镜头视图

进行更改以生成尾帧：

将“3D 引导式插件”顶部菜单更改为“尾帧”，并添加文本提示词
将 ComfyUI 窗口顶部菜单更改为“尾帧”
编辑文件名以区分尾帧

Blender 中带有尾帧视图的 ComfyUI 节点视图

按下“运行”并创建尾帧。

生成的尾帧

第 4 步：使用 LTX-2.3 生成视频

在 ComfyUI 中，在模板浏览器中搜索“LTX”，然后并选择“首帧/尾帧”模板。将首帧和尾帧图像加载到相应的输入节点。编写视频提示词，描述首尾帧之间的运动。将其写成一整段，就像在向他人自然描述画面变化一样。该项目的示例提示词可能是：

“Cinematic 1960s Supermarionation style. Two marionette pilots operate a retro cockpit: on the left is a Black man with dark brown skin, and on the right is a blonde woman, both wearing yellow jumpsuits. Their character motion is intentionally stiff, jerky, and staccato, constrained by invisible overhead strings. The pilots maintain consistent skin tones and features throughout the sequence. The camera performs a steady forward dolly-in, passing between the pilots to the front windows. Outside, a rigid, static miniature space station with red solar panels floats in low orbit over a blue planet; the station remains perfectly non-deforming and solid. High-contrast studio lighting, visible model textures, and vintage 35mm film grain.”
(1960 年代电影超级木偶剧风格。两名木偶飞行员操控着复古座舱：左侧是一位深棕色皮肤的非裔美国人男子，右侧是一位金发女性，两人都穿着黄色连身衣。人物动作受到上方无形牵线的牵制，刻意呈现出僵硬、颠簸且断续的状态。飞行员在整个场景中保持着一致的肤色和特征。镜头持续稳定地向前推入，从两名飞行员之间穿行，朝前方舷窗推进。机舱外面，坚硬、静态的配有红色太阳能电池板的微型空间站漂浮在一颗蓝色星球上方的低轨道上；该空间站保持着完美不变形且坚实的状态。工作室呈现高对比度光照、可见的模型纹理以及复古 35mm 胶片颗粒。)

调整 CFG，观察生成结果对提示词的遵循程度变化。将数值从 1 提高到 4，会让生成结果更贴近提示词，但也会减少一部分创造性。

提示：虽然编写简短的负面提示词不是必需项，但有助于获得更接近用户预期的生成结果。要想生成出理想视频，可能需要对提示词和 CFG 值进行一些测试。

你可以通过 Lightricks 中的这篇实用指南深入了解如何编写提示词：编写直接映射音频和视频的 LTX-2 提示词 | LTX 博客

如果你生成了 1280x704 视频，并对结果满意，请尝试以 1920x1088 的分辨率重新生成。这将生成更精彩的视频。注意 LTX 需要像素尺寸可被 32 整除，因此才会出现 704 和 1088 这类较为少见的分辨率。

第 5 步：使用 RTX Video 升级至 4K 分辨率

对于所有 RTX GPU 而言，全新 RTX Video 超分辨率节点可接入工作流，按倍数对输出视频进行放大。这是一款快速安装的小型模型，将为你节省时间。

在 ComfyUI 管理器中搜索“RTX”，并安装 RTX Video 超分辨率节点

ComfyUI 节点管理器，搜索词“rtx”

在节点库中搜索“RTX”，然后将 RTX Video 超分辨率拖动到节点视图中
将 VAE Decode 的 IMAGE 输出连接到 RTX Video 的 Images In，再将 RTX Video 的 upscale_images 输出连接到 Create Video 的 images In

RTX Video 超分辨率节点的连接方式

你已完全借助 RTX GPU，将场景构想制作成成品 4K 视频，并获得纯文本视频工具无法提供的构图、视角和运动控制能力。

常见问题解答

哪些输入图像适合让 TRELLIS 生成高质量 3D 对象？

使用宽高比为 1:1、背景纯净或已去除、光照中性均匀，且主体正面或 3/4 视角清晰可见的图像。强烈的定向阴影会被固化到纹理中，并形成误导性表面法线。如果生成的对象轮廓清晰但纹理杂乱，则源图像很可能带有复杂或杂乱的背景。请先去除背景，再将其输入 TRELLIS。

如何提高生成 3D 对象的质量？

TRELLIS 中有两个设置会影响生成质量。Sparse Structure Sampling Steps 定义了几何骨架网络 (更多步数可生成更清晰的拓扑和更锐利的边缘)，而 Latent Sampling Steps 则控制表面细节和纹理 (步数越多，生成效果通常越好)。提高两者的 CFG 尺度，会让模型更严格地遵循提示词。从默认值开始，如果输出与描述不符，再逐步提高参数。

我应该使用多大分辨率来预览 SANA 图像？

SANA 已针对 1024x1024 进行优化。如果希望在迭代过程中更快地预览，请使用 512 或 768。质量将略有降低，但足以挑选素材。

我可以将 FLUX 替换为其他图像模型吗？

可以。例如，在“加载模型”节点中，将 FLUX.1-dev 替换为更小的模型 (例如 SDXL)，以实现更快的迭代速度 (示例)。打开 ComfyUI 图形，即可访问更多条件控制选项，包括正向/负向提示词，以及用于随机变化的通配符，这些选项可用于自动循环切换不同光照风格。

我应该为 LTX-2.3 使用多大的分辨率和帧数？

建议在 1280×720 分辨率下进行迭代优化，并将序列控制在 257 帧以内，以在连贯性与速度之间取得最佳平衡。准备就绪时，尝试将像素分辨率提升至 1920x1080

我应该为 LTX-2.3 使用哪些推理设置？

迭代阶段可使用 20–30 步，最终高质量渲染建议使用 40 步以上。将“引导范围”设置为 3.0-3.5，以便在提示词连贯性与自然动作之间达到最佳平衡。

如何配置 RTX Video 超分辨率？

根据输入分辨率和目标输出设置“上采样系数”(1-4)，对于将 720p 提升 4K 的情况，则使用 3。将“质量级别”设置为 4，以最大程度地增强边缘锐化和伪影去除。

如何为 LTX-2.3 图像转视频编写提示词？

LTX-2.3 需要自然语言，而不是标签列表。图像已包含视觉信息，因此提示词应描述要发生的事情。可靠的写法如下：先写镜头构图 (“中近景，轻微仰拍”)，再写光照 (“黄金时段，长阴影”)，然后按时间序列写下运动动作 (“摩托车向前加速，后轮后尘埃升起”)。表示风格和质量的词语应放在主体名词之前。写 4 到 6 句话。不要重复关键帧中已显示的内容，因此请描述变化，而不是静态状态。

我的负向提示词里应该写什么？

保持专注。可靠的起点：变形、失真、扭曲、闪烁、抖动、模糊、伪影、画面异常、曝光过度、水印、文本、字幕。避免构建长列表。此外，LTX-2.3 并不要求使用负向提示词。

尾帧与我提供的图像不匹配。如何修复？

这是一个既有问题。首先，将引导节点中的尾帧强度值提升至 1.0。如果这不能解决问题，请尝试将最后一帧位置索引设置为 -12 而不是 -1，这样可让模型在结尾前多出几帧过渡空间。片段越长，尾帧的贴合度也会下降，因此将序列保持在 5 秒 (121 帧) 可显著改善效果。

输出视频颜色全黑。我应该先检查什么？

按顺序有三点：首先，确认您的帧数符合 (Nx8)+1 规则 (有效值：49、65、97、121...)。其次，如果正在使用“首帧/尾帧”工作流，请确保在 VAE 解码节点之前添加了 LTXVCropGuides。如果未添加，引导帧会破坏解码并生成全黑的输出结果。第三，检查你的文本编码器是否正确加载，缺少 Gemma 编码器意味着模型没有条件控制，将生成全黑或近乎全黑的帧。

主体外观在视频中途发生了变化。如何降低这种可能性？

主体漂移是模型限制，而不是错误。最有效的缓解措施：将视频片段最大时长保持在 5 秒内，在提示词中一次只描述一个明确动作，将 CFG 降低至 3.0-3.5。对于重复出现的角色，基于该主体训练的 LoRA 能显著提升多次生成结果的一致性。