探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列运用参考工作流。
工作负载
计算机视觉/视频分析
行业
制造业
智慧城市/空间
零售/消费品
传媒娱乐
医疗健康和生命科学
业务目标
投资回报
创新
概览
传统的视频分析应用程序及其开发工作流程通常建立在功能固定、能力有限的模型之上,这些模型仅能检测和识别特定的一组预定义对象。借助生成式 AI 和基础模型,用户现在可以使用更少的模型构建应用,这些模型具备极其复杂且广泛的感知能力以及丰富的语境理解能力。新一代的视觉语言模型 (VLM) (例如 NVIDIA Cosmos™ Reason) 正在让更智能、更强大的视频分析 AI 智能体成为可能。
视频分析 AI 智能体可以通过将视觉与语言模态相结合,理解各种自然语言问题或应用于录制或实时视频流的提示词,实现观察、推理并采取行动。更深入地理解视频内容,可以实现更准确和有意义的解读,改善视频分析应用的功能和真实场景的分析能力。 这些智能体有望开启全新的洞察视角,为自动化带来更多可能性。
高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将对运营团队产生巨大影响,他们希望通过自然交互产生的更丰富的见解来做出更安全的空间和更明智的决策。管理人员和运营团队将使用自然语言与智能体进行沟通,而这一切都由生成式 AI 和大视觉语言模型提供支持,其核心是 NVIDIA NIM™。
快速链接
技术实施
每个视频分析 AI 智能体的核心都是一个能够感知并推理的 VLM。常见的两类 VLM 包括 Cosmos Embed 和 Cosmos Reason。 两者都可通过提供丰富的元数据和内容摘要来增强现有计算机视觉应用的能力。
NVIDIA NIM 是一组针对 NVIDIA GPU 优化的加速推理微服务,包含行业标准 API、特定领域代码、优化的推理引擎和企业级运行时。它结合了 VLM、大语言模型 (LLM) 和检索增强生成 (RAG),可用于构建视频分析 AI 智能体。此类智能体能够处理实时或归档图像及视频,并借助自然语言提取可付诸行动的洞察。我们创建了一个视频分析 AI 智能体参考工作流,您可以尝试使用该工作流加速开发过程。
快速链接
用于视频搜索和总结 (VSS) 的 NVIDIA Blueprint 可帮助轻松构建和定制视频分析 AI 智能体,并结合生成式 AI、VLM、LLM、RAG 和 NVIDIA NIM。视频分析 AI 智能体可以通过自然语言接收任务指令,能够分析、解释并处理海量视频数据,提供关键洞察,帮助各行各业优化流程、提高安全性并降低成本。
VSS 提供模块化组件,可实现高度灵活性,加速微服务可支持实时视频智能分析、在多种嵌入向量上的智能体式搜索,以及完善的报告生成能力。
VSS 还支持将生成式 AI 无缝集成到现有计算机视觉工作流中,通过多模态理解与零样本推理,提升检测、搜索与分析能力。VSS 可轻松从边缘部署到云端,平台包括 NVIDIA RTX™ 4500、NVIDIA RTX PRO™ 6000、NVIDIA DGX Spark™ 和 NVIDIA® Jetson Thor™。
快速链接
探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视频分析 AI 智能体。