视频分析 AI 智能体

视频分析 AI 智能体是 AI 赋能的助手,能够查看、推理并针对实时或录制的视频流采取行动。它们使用视觉语言模型和大语言模型帮助通过自然语言搜索、总结和理解视频。

工作负载

计算机视觉/视频分析

行业

制造业
智慧城市/空间
零售/快速消费品
媒体和娱乐
医疗健康和生命科学

业务目标

投资回报
创新

概览

AI 智能体相较传统视频分析有哪些优势?

传统的视频分析应用及其开发工作流通常基于功能固定的有限模型构建,这些模型旨在仅查看和识别一组特定的预定义对象。然而,借助生成式 AI 和基础模型,用户现可以使用更少的模型构建应用程序,这些模型具有极其复杂且广泛的感知能力和丰富的上下文理解能力。这种新一代视觉语言模型 (VLM),比如 NVIDIA Cosmos™,正在催生智能、强大的视频分析 AI 智能体。

什么是视频分析 AI 智能体?

视频分析 AI 智能体可以通过将视觉与语言模态相结合,理解各种自然语言问题或应用于录制或实时视频流的提示词,实现观察、推理并采取行动。更深入地理解视频内容,可以实现更准确和有意义的解读,改善视频分析应用的功能和真实场景的分析能力。这些智能体有望开启全新的洞察视角,为自动化带来更多可能性。

视频分析 AI 智能体部署在哪里?

高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将为运维团队带来巨大帮助,借助自然交互所产生的深度数据洞察,他们能够打造更安全的环境并做出更科学的决策。管理人员和运营团队还将使用自然语言与这些智能体进行沟通,这些智能体都由生成式 AI 和 VLM 提供支持,其核心是 NVIDIA NIM™

构建视频分析 AI 智能体

探索由多个视觉语言模型提供支持的参考工作流,并轻松构建您的视频分析智能体。


技术实施

基于 NVIDIA Cosmos 平台开展开发工作

每个视频分析 AI 智能体的核心都是一个能够感知并推理的 VLM。两种常见的 VLM 是 NVIDIA Cosmos 3Cosmos Embed。两者都可通过提供丰富的元数据和内容摘要来增强现有计算机视觉应用的能力。

NVIDIA NIM 是一组针对 NVIDIA GPU 优化的加速推理微服务,包含行业标准 API、特定领域代码、优化的推理引擎和企业级运行时。它结合了 VLM、大语言模型 (LLM) 和检索增强生成 (RAG),可用于构建视频分析 AI 智能体。此类智能体能够处理实时或归档图像及视频,并借助自然语言提取可付诸行动的洞察。我们创建了一个视频分析 AI 智能体参考工作流,您可以尝试使用该工作流加速开发过程。

利用 NVIDIA Metropolis VSS 蓝图和技能构建 AI 智能体

用于视频搜索和总结 (VSS) 的 NVIDIA Metropolis blueprint 使您能够轻松地使用生成式 AI、VLM、LLM、RAG 和 NVIDIA NIM 构建和定制视频分析 AI 智能体。视频分析 AI 智能体可以通过自然语言接收任务指令,能够分析、解释并处理海量视频数据,提供关键洞察,帮助各行各业优化流程、提高安全性并降低成本。

VSS 提供模块化组件,具备高度灵活性,支持实时视频智能的加速微服务,跨多种嵌入的代理式融合搜索,以及全面的报告生成能力。它还提供智能体技能和工具,让开发者能够通过简单的自然语言提示词和编码智能体,构建视频分析 AI 智能体。

VSS 还支持将生成式 AI 无缝集成到现有计算机视觉工作流中,通过多模态理解和零样本推理来增强检查、搜索和分析。VSS 可轻松从边缘部署到云端,平台包括 NVIDIA RTX™ 4500、NVIDIA DGX Spark™ 和 NVIDIA® Jetson Thor™。

利用模型微调合成数据生成智能体技能提高模型精度

为视频分析 AI 智能体定制模型的传统方法线性且缓慢,包括收集视频、标记帧、训练、评估、重复,每一步都要有人参与,且需要数月时间才能达到可接受的模型精度。现代方法打破了这一循环,使编码智能体能够根据设定目标迭代提高 VLM 和视觉基础模型的性能。

利用 NVIDIA TAO 智能体技能调优视觉语言模型。

NVIDIA TAO 是一套智能体技能和工具,用于使用自然语言提示词微调视觉 AI 模型。编码智能体使用这些工具和技能,通过迭代评估模型精度、确定所需的精确训练数据,然后挖掘现有数据或合成生成所需的数据,自动达到模型精度目标。

利用用于合成数据生成的智能体技能,解决训练数据挑战。

如果训练数据有限,开发者可快速生成用于目视检查的合成缺陷数据,或针对天气、光照等不同场景对食品进行数据增强。

使用 Jetson 平台服务创建边缘智能体

您可以使用 NVIDIA JetPack™的最新功能 - Jetson 平台服务,构建由 NVIDIA Jetson™ 边缘 AI 平台提供支持的视频分析 AI 智能体。生成式 AI 应用完全在 NVIDIA Jetson Orin™ 设备上运行,该设备能够检测事件以触发警报,并支持交互式问答会话。


开始使用

构建视频分析 AI 智能体

探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视频分析 AI 智能体。

开发者指南:构建视频分析 AI 智能体

借助AI智能体,将海量视频内容转化为可检索的有效信息

了解如何借助 VSS 功能模块部署视频智能体,以实现实时智能警报及智能搜索。

构建高级视频分析 AI 智能体

了解如何借助用于视频搜索和摘要 (VSS) 的 NVIDIA AI 蓝图无缝构建视频分析 AI 智能体。

利用生成式 AI 增强计算机视觉流程

探索最新 VSS 2.4 的新特性,包括事件验证、与 Cosmos Reason 集成,以及扩展的硬件支持。

构建代理式视频工作流

了解如何构建具有音频输入、用于视频搜索的语音输出和摘要的工作流。

构建实时多模态 XR 应用

了解如何使用 NVIDIA AI Blueprint 进行视频搜索和摘要,以支持 XR 环境中的音频。

从边缘到云端部署 AI 智能体

利用 VSS Blueprint 的功耗,从边缘到云端无缝部署 AI 智能体,并在各种 GPU 中实现可扩展的性能

NVIDIA Jetson Thor

利用 NVIDIA Jetson Thor™ 系列模块,以紧凑的外形规格提供高达 2070 FP4 TFLOPS 的 AI 算力和 128 GB 内存,加速物理 AI 和机器人开发的未来。

NVIDIA DGX Spark

NVIDIA DGX Spark 将 NVIDIA Grace Blackwell 的功耗集成到开发者台式机中。NVIDIA GB10 超级芯片与 128 Gb 统一系统内存相结合,使 AI 研究人员、数据科学家和学生能够在本地处理具有多达 200B 参数的 AI Modder。

NVIDIA RTX PRO 6000 Blackwell 系列 GPU

NVIDIA RTX PRO 6000 Blackwell 系列 GPU 通过运行训练、合成数据生成、机器人学习和仿真中的每一项机器人开发工作负载,加速物理 AI。

相关成功案例