视频分析 AI 智能体是 AI 赋能的助手,能够查看、推理并针对实时或录制的视频流采取行动。它们使用视觉语言模型和大语言模型帮助通过自然语言搜索、总结和理解视频。
工作负载
计算机视觉/视频分析
行业
制造业
智慧城市/空间
零售/快速消费品
媒体和娱乐
医疗健康和生命科学
业务目标
投资回报
创新
概览
传统的视频分析应用及其开发工作流通常基于功能固定的有限模型构建,这些模型旨在仅查看和识别一组特定的预定义对象。然而,借助生成式 AI 和基础模型,用户现可以使用更少的模型构建应用程序,这些模型具有极其复杂且广泛的感知能力和丰富的上下文理解能力。这种新一代视觉语言模型 (VLM),比如 NVIDIA Cosmos™,正在催生智能、强大的视频分析 AI 智能体。
视频分析 AI 智能体可以通过将视觉与语言模态相结合,理解各种自然语言问题或应用于录制或实时视频流的提示词,实现观察、推理并采取行动。更深入地理解视频内容,可以实现更准确和有意义的解读,改善视频分析应用的功能和真实场景的分析能力。这些智能体有望开启全新的洞察视角,为自动化带来更多可能性。
高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将为运维团队带来巨大帮助,借助自然交互所产生的深度数据洞察,他们能够打造更安全的环境并做出更科学的决策。管理人员和运营团队还将使用自然语言与这些智能体进行沟通,这些智能体都由生成式 AI 和 VLM 提供支持,其核心是 NVIDIA NIM™。
快速链接
技术实施
每个视频分析 AI 智能体的核心都是一个能够感知并推理的 VLM。两种常见的 VLM 是 NVIDIA Cosmos 3 和 Cosmos Embed。两者都可通过提供丰富的元数据和内容摘要来增强现有计算机视觉应用的能力。
NVIDIA NIM 是一组针对 NVIDIA GPU 优化的加速推理微服务,包含行业标准 API、特定领域代码、优化的推理引擎和企业级运行时。它结合了 VLM、大语言模型 (LLM) 和检索增强生成 (RAG),可用于构建视频分析 AI 智能体。此类智能体能够处理实时或归档图像及视频,并借助自然语言提取可付诸行动的洞察。我们创建了一个视频分析 AI 智能体参考工作流,您可以尝试使用该工作流加速开发过程。
快速链接
用于视频搜索和总结 (VSS) 的 NVIDIA Metropolis blueprint 使您能够轻松地使用生成式 AI、VLM、LLM、RAG 和 NVIDIA NIM 构建和定制视频分析 AI 智能体。视频分析 AI 智能体可以通过自然语言接收任务指令,能够分析、解释并处理海量视频数据,提供关键洞察,帮助各行各业优化流程、提高安全性并降低成本。
VSS 提供模块化组件,具备高度灵活性,支持实时视频智能的加速微服务,跨多种嵌入的代理式融合搜索,以及全面的报告生成能力。它还提供智能体技能和工具,让开发者能够通过简单的自然语言提示词和编码智能体,构建视频分析 AI 智能体。
VSS 还支持将生成式 AI 无缝集成到现有计算机视觉工作流中,通过多模态理解和零样本推理来增强检查、搜索和分析。VSS 可轻松从边缘部署到云端,平台包括 NVIDIA RTX™ 4500、NVIDIA DGX Spark™ 和 NVIDIA® Jetson Thor™。
快速链接
为视频分析 AI 智能体定制模型的传统方法线性且缓慢,包括收集视频、标记帧、训练、评估、重复,每一步都要有人参与,且需要数月时间才能达到可接受的模型精度。现代方法打破了这一循环,使编码智能体能够根据设定目标迭代提高 VLM 和视觉基础模型的性能。
利用 NVIDIA TAO 智能体技能调优视觉语言模型。
NVIDIA TAO 是一套智能体技能和工具,用于使用自然语言提示词微调视觉 AI 模型。编码智能体使用这些工具和技能,通过迭代评估模型精度、确定所需的精确训练数据,然后挖掘现有数据或合成生成所需的数据,自动达到模型精度目标。
利用用于合成数据生成的智能体技能,解决训练数据挑战。
如果训练数据有限,开发者可快速生成用于目视检查的合成缺陷数据,或针对天气、光照等不同场景对食品进行数据增强。
快速链接
探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视频分析 AI 智能体。