探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列运用参考工作流。
工作负载
计算机视觉/视频分析
行业
制造业
智慧城市/空间
零售/快速消费品
媒体和娱乐
医疗健康和生命科学
业务目标
投资回报
创新
产品
NVIDIA Metropolis
NVIDIA AI Enterprise
传统的视频分析应用程序及其开发工作流程通常建立在功能固定的有限模型上,仅能检测和识别一组特定的预定义对象。然而,借助生成式 AI 和基础模型,用户现可以使用更少的模型构建应用程序,这些模型具有极其复杂且广泛的感知能力和丰富的上下文理解能力。这种新一代的视觉语言模型 (VLM) 正在让更智能、更强大的视频分析 AI 智能体成为可能。
视频分析 AI 智能体可以结合视觉和语言两种模态,理解自然语言提示并执行视觉问答。例如,用自然语言回答各种问题,并将回答应用于录制或实时视频流。更深入地理解视频内容,可以实现更准确和有意义的解读,改善视频分析应用的功能和真实场景的分析能力。这些智能体有望开启全新的洞察视角,为自动化带来更多可能性。
高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将对运营团队产生巨大影响,他们希望利用自然交互产生的更丰富的见解来做出更好的决策。管理人员和运营团队将使用自然语言与智能体进行沟通,这些智能体将由生成式 AI 和大视觉语言模型提供支持,其核心是 NVIDIA NIM™ 微服务。
探索技术运用。
快速链接
探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视频分析 AI 智能体。
利用 VSS blueprint 的强大功能,从边缘到云端无缝部署 AI 智能体,并在各种 GPU 中实现可扩展性能。