视频分析 AI 智能体

探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列运用参考工作流。

探索 Vision AI

概览
技术实施
开始使用
资源
部署 AI 智能体
客户案例

概览
技术实施
开始使用
资源
部署 AI 智能体
客户案例

探索 Vision AI

工作负载

计算机视觉/视频分析

行业

制造业
智慧城市/空间
零售/快速消费品
媒体和娱乐
医疗健康和生命科学

业务目标

投资回报率
创新

产品

概览

驱动新一波应用浪潮

传统的视频分析应用程序及其开发工作流程通常建立在功能固定、能力有限的模型之上，这些模型仅能检测和识别特定的一组预定义对象。借助生成式 AI 和基础模型，用户现在可以使用更少的模型构建应用，这些模型具备极其复杂且广泛的感知能力以及丰富的语境理解能力。新一代的视觉语言模型 (VLM) (例如 NVIDIA Cosmos™ Reason) 正在让更智能、更强大的视频分析 AI 智能体成为可能。

什么是视频分析 AI 智能体？

视频分析 AI 智能体可以结合视觉和语言两种模态，理解自然语言提示并执行视觉问答。例如，它能以自然语言回答各类问题，这些问题可应用于录制好的或实时的视频流。这种对视频内容更层次的理解，可以实现更准确和更有意义的解读，提升视频分析应用的功能以及对真实场景的分析能力。些智能体有望为自动化领域带来全新的见解和可能性。

优化每个空间和操作

高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将对运营团队产生巨大影响，他们希望通过自然交互产生的更丰富的见解来做出更安全的空间和更明智的决策。管理人员和运营团队将使用自然语言与智能体进行沟通，而这一切都由生成式 AI 和大视觉语言模型提供支持，其核心是 NVIDIA NIM™ 微服务。

构建视频分析 AI 智能体

探索由多个视觉语言模型提供支持的参考工作流，并轻松构建视频分析智能体。

探索 AI Blueprint

快速链接

将代理式 AI 引入计算机视觉应用的 3 种方法

打造更安全的空间：NVIDIA 与合作伙伴将物理 AI 引入城市和工业基础设施

智慧城市 AI 智能体如何改变城市运营

技术实施

使用 NVIDIA NIM 进行开发

NVIDIA NIM 是一组推理微服务，包括行业标准 API、特定领域代码、优化的推理引擎和企业运行时。它提供 VLM、LLM 和 RAG 的组合来构建您的视频分析 AI 智能体，该智能体可以处理实时或存档的图像或视频，以使用自然语言提取可操作的见解。我们创建了一个视频分析 AI 智能体参考工作流，您可以尝试使用该工作流加速开发过程。

快速链接

试用视频分析 AI 参考工作流

阅读博客：构建由 NVIDIA NIM 提供支持的多模态视频分析 AI 智能体

使用 NVIDIA Nemotron 和 Cosmos 推理模型为企业和物理 AI 应用构建更智能的智能体

借助 NVIDIA AI Blueprint 构建 AI 智能体

借助用于视频搜索和总结 (VSS) 的 NVIDIA AI Blueprint，您可以使用生成式 AI、VLM、LLM 和 NVIDIA NIM 轻松构建和自定义视频分析 AI 智能体。视频分析 AI 智能体通过自然语言分配任务，可以分析、解释和处理大量视频数据，以提供关键见解，帮助各行各业优化流程、提高安全性并降低成本。

VSS 支持将生成式 AI 无缝集成到现有的计算机视觉管线中，通过多模态理解和零样本推理增强检查、搜索和分析。您可以在 NVIDIA RTX PRO™ Blackwell 系列 GPU、NVIDIA DGX™ Spark 和 NVIDIA® Jetson Thor™ 等平台上从边缘轻松部署到云端。

在 API Catalog 中体验 Blueprint

快速链接

试用基于 Launchable 的云端 Blueprint

如何将计算机视觉工作流与生成式 AI 和推理集成

阅读博客：使用 NVIDIA AI Blueprint 进行视频搜索和总结，推动视频分析 AI 智能体的发展