探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列运用参考工作流。
工作负载
计算机视觉/视频分析
行业
制造业
智慧城市/空间
零售/快速消费品
媒体和娱乐
医疗健康和生命科学
业务目标
投资回报率
创新
产品
NVIDIA Metropolis
NVIDIA AI Enterprise
概览
传统的视频分析应用程序及其开发工作流程通常建立在功能固定、能力有限的模型之上,这些模型仅能检测和识别特定的一组预定义对象。借助生成式 AI 和基础模型,用户现在可以使用更少的模型构建应用,这些模型具备极其复杂且广泛的感知能力以及丰富的语境理解能力。新一代的视觉语言模型 (VLM) 正在让更智能、更强大的视频分析 AI 智能体成为可能。
视频分析 AI 智能体可以结合视觉和语言两种模态,理解自然语言提示并执行视觉问答。例如,它能以自然语言回答各类问题,这些问题可应用于录制好的或实时的视频流。这种对视频内容更层次的理解,可以实现更准确和更有意义的解读,提升视频分析应用的功能以及对真实场景的分析能力。些智能体有望为自动化领域带来全新的见解和可能性。
高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将对运营团队产生巨大影响,他们希望通过自然交互产生的更丰富的见解来做出更好的决策。管理人员和运营团队将使用自然语言与智能体进行沟通,而这一切都由生成式 AI 和大视觉语言模型提供支持,其核心是 NVIDIA NIM™ 微服务。
快速链接
技术实施
NVIDIA NIM 是一组推理微服务,包括行业标准 API、特定领域代码、优化的推理引擎和企业运行时。 它提供 VLM、LLM 和 RAG 的组合来构建您的视频分析 AI 智能体,该智能体可以处理实时或存档的图像或视频,以使用自然语言提取可操作的见解。我们创建了一个视频分析 AI 智能体参考工作流,您可以尝试使用该工作流加速开发过程。
快速链接
借助用于视频搜索和总结 (VSS) 的 NVIDIA AI Blueprint,您可以使用生成式 AI、VLM、LLM 和 NVIDIA NIM 轻松构建和自定义视频分析 AI 智能体。视频分析 AI 智能体通过自然语言分配任务,可以分析、解释和处理大量视频数据,以提供关键见解,帮助各行各业优化流程、提高安全性并降低成本。
VSS 支持将生成式 AI 无缝集成到现有的计算机视觉管线中,通过多模态理解和零样本推理增强检查、搜索和分析。您可以在 NVIDIA RTX PRO™ Blackwell 系列 GPU、NVIDIA DGX™ Spark 和 NVIDIA® Jetson Thor™ 等平台上从边缘轻松部署到云端。
快速链接
您可以使用 NVIDIA JetPack™ – Jetson 平台服务,构建由 NVIDIA Jetson™ 边缘 AI 平台提供支持的视频分析 AI 智能体。生成式 AI 应用完全在 NVIDIA Jetson Orin™ 设备上运行,该设备能够检测事件、生成警报,并支持交互式问答会话。
快速链接
探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视频分析 AI 智能体。