视频分析 AI 智能体

探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列运用参考工作流。

工作负载    

计算机视觉/视频分析

行业

制造业
智慧城市/空间
零售/消费品
传媒娱乐
医疗健康和生命科学

业务目标

投资回报
创新

概览

驱动新一波应用浪潮

传统的视频分析应用程序及其开发工作流程通常建立在功能固定、能力有限的模型之上,这些模型仅能检测和识别特定的一组预定义对象。借助生成式 AI 和基础模型,用户现在可以使用更少的模型构建应用,这些模型具备极其复杂且广泛的感知能力以及丰富的语境理解能力。新一代的视觉语言模型 (VLM) (例如 NVIDIA Cosmos™ Reason) 正在让更智能、更强大的视频分析 AI 智能体成为可能。

什么是视频分析 AI 智能体?

视频分析 AI 智能体可以通过将视觉与语言模态相结合,理解各种自然语言问题或应用于录制或实时视频流的提示词,实现观察、推理并采取行动。更深入地理解视频内容,可以实现更准确和有意义的解读,改善视频分析应用的功能和真实场景的分析能力。 这些智能体有望开启全新的洞察视角,为自动化带来更多可能性。

优化每个空间和操作

高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将对运营团队产生巨大影响,他们希望通过自然交互产生的更丰富的见解来做出更安全的空间和更明智的决策。管理人员和运营团队将使用自然语言与智能体进行沟通,而这一切都由生成式 AI 和大视觉语言模型提供支持,其核心是 NVIDIA NIM™

构建视频分析 AI 智能体

探索由多个视觉语言模型提供支持的参考工作流,并轻松构建视频分析智能体。


技术实施

使用 NVIDIA Cosmos Reason NIM 进行开发

每个视频分析 AI 智能体的核心都是一个能够感知并推理的 VLM。常见的两类 VLM 包括 Cosmos EmbedCosmos Reason。 两者都可通过提供丰富的元数据和内容摘要来增强现有计算机视觉应用的能力。

NVIDIA NIM 是一组针对 NVIDIA GPU 优化的加速推理微服务,包含行业标准 API、特定领域代码、优化的推理引擎和企业级运行时。它结合了 VLM、大语言模型 (LLM) 和检索增强生成 (RAG),可用于构建视频分析 AI 智能体。此类智能体能够处理实时或归档图像及视频,并借助自然语言提取可付诸行动的洞察。我们创建了一个视频分析 AI 智能体参考工作流,您可以尝试使用该工作流加速开发过程。

借助 NVIDIA VSS Blueprint 构建 AI 智能体

用于视频搜索和总结 (VSS) 的 NVIDIA Blueprint 可帮助轻松构建和定制视频分析 AI 智能体,并结合生成式 AI、VLM、LLM、RAG 和 NVIDIA NIM。视频分析 AI 智能体可以通过自然语言接收任务指令,能够分析、解释并处理海量视频数据,提供关键洞察,帮助各行各业优化流程、提高安全性并降低成本。

VSS 提供模块化组件,可实现高度灵活性,加速微服务可支持实时视频智能分析、在多种嵌入向量上的智能体式搜索,以及完善的报告生成能力。

VSS 还支持将生成式 AI 无缝集成到现有计算机视觉工作流中,通过多模态理解与零样本推理,提升检测、搜索与分析能力。VSS 可轻松从边缘部署到云端,平台包括 NVIDIA RTX™ 4500、NVIDIA RTX PRO™ 6000、NVIDIA DGX Spark™ 和 NVIDIA® Jetson Thor™。

使用 Jetson 平台服务创建边缘智能体

您可以使用 NVIDIA JetPack™的最新功能 - Jetson 平台服务,构建由 NVIDIA Jetson™ 边缘 AI 平台提供支持的视频分析 AI 智能体。生成式 AI 应用完全在 NVIDIA Jetson Orin™ 设备上运行,该设备能够检测事件以触发警报,并支持交互式问答会话。


常见问题解答

NIM 是一套易于使用的微服务,目的是帮助企业客户在云,数据中心和工作站上安全、可靠地部署高性能的 AI 模型推理。它支持各种 AI 模型,包括开源社区和 NVIDIA AI 基础模型,可确保使用行业标准 API 在本地或云端进行无缝、可扩展的 AI 推理。所有 NIM 微服务和相关预览 API 都可在 www.nvidia.cn/ai 上找到。

访问 build.nvidia.com 创建账号,并开始探索可用的 NIM 微服务。您可以查看 NVIDIA Cosmos Reason VLM NIM

免费体验 NVIDIA AI Blueprint 进行视频搜索和摘要

所有用户都可以在 www.nvidia.com/ai 上免费使用预览 API。 每个新帐户最多可以获得 5000 积分,用于体验这些 API。积分用完后,您可以将可下载的 NIM 微服务部署到您的硬件或云实例上,继续进行开发。开发者还可以通过 NVIDIA 开发者计划访问 NIM。请参阅此 常见问题解答 中的详细信息。

NVIDIA NIM 可供开发者免费试用。要进入生产阶段,下载的 NIM 微服务需要 NVIDIA AI Enterprise 许可证。如需了解详情,请访问此页面。

NIM 开发者论坛是您提出问题以及与我们的开发者社区互动的最佳平台。您可以在访问论坛。

开始使用

构建视频分析 AI 智能体

探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视频分析 AI 智能体。

开发者实践

构建高级视频分析 AI 智能体

了解如何使用用于视频搜索和总结 (VSS) 的 NVIDIA AI Blueprint 无缝构建视频分析 AI 智能体。

利用生成式 AI 增强计算机视觉工作流

探索最新 VSS 2.4 的新功能,包括事件验证、与 Cosmos Reason 集成,以及扩展的硬件支持。

构建代理式视频工作流

了解如何构建包含音频输入、用于视频搜索的语音输出和总结的工作流。

构建实时多模态 XR 应用

了解如何使用 NVIDIA AI Blueprint 进行视频搜索和总结,以支持 XR 环境中的音频。

从边缘到云端部署 AI 智能体

利用 VSS blueprint 的强大功能,从边缘到云端无缝部署 AI 智能体,并在各种 GPU 中实现可扩展性能。

NVIDIA RTX PRO Blackwell 系列 GPU

 NVIDIA RTX PRO™ Blackwell 系列 GPU 能够处理训练、合成数据生成、机器人学习和仿真等机器人开发领域的工作负载,从而加速物理 AI 的发展。

NVIDIA Jetson Thor

NVIDIA Jetson Thor 系列模组外形小巧,可提供高达 2070 FP4 TFLOPS 的 AI 计算性能和 128 GB 内存,从而加速物理 AI 和机器人开发的未来。

NVIDIA DGX Spark

DGX™ Spark 将 NVIDIA Grace Blackwell 的强大功能引入开发者桌面。GB10 超级芯片与 128 GB 的统一系统寻址内存相结合,使 AI 研究人员、数据科学家和学生能够在本地运行包含多达 2000 亿个参数的 AI 模型。

相关客户案例