探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列运用参考工作流
工作负载
计算机视觉/视频分析
行业
零售/包装消费品 制造业 智慧城市/空间 医疗健康和生命科学
业务目标
投资回报 创新
产品
NVIDIA Metropolis NVIDIA AI Enterprise
传统的视频分析应用及其开发工作流通常建立在固定功能的有限模型之上,仅能检测和识别一组精选的预定义对象。 借助生成式 AI 和基础模型,用户现可以用更少的模型构建应用,这些模型具有难以置信的复杂性、广泛的感知能力和丰富的上下文理解能力。 这种新一代的视觉语言模型 (VLM) 正在让强大的智能视觉 AI 智能体成为可能。
视觉 AI 智能体可以结合视觉和语言模式来理解自然语言提示并执行视觉问答。 例如,用自然语言回答各种问题,并将回答应用于录制或实时视频流。 更深入地理解视频内容,可以实现更准确和有意义的解读,改善视频分析应用的功能和真实场景的解读。 智能体前景广阔,将开启全新的工业应用可能性。
我们将在工厂、仓库、零售店、机场、交通路口等地部署高感知、高精度和高交互性的视觉 AI 智能体。 这将对运营团队产生巨大影响,他们希望利用自然交互产生的更丰富的见解来做出更好的决策。 管理人员和运营团队将使用自然语言与智能体进行沟通,这些智能体将由生成式 AI 和大型视觉语言模型提供支持,其核心是 NVIDIA NIM™ 微服务。
快速链接
NVIDIA NIM 是一组推理微服务,包括行业标准 API、特定领域代码、优化的推理引擎和企业运行时间。 提供多个 VLM 用于构建可视化 AI 智能体,可以处理实时或存档的图像或视频,以使用自然语言提取可操作的洞察力。 我们创建了一个可视化 AI 智能体的参考工作流,用户可以尝试使用该工作流加速开发过程。
NVIDIA VIA 微服务是云原生基础模组,用于加速由 VLM 和 NIM 提供支持的可视化 AI 智能体开发,包括边缘和云部署。 比如,用于构建可视化 AI 智能体的汇总微服务,能处理大量视频并生成精心编辑过的摘要。
这些微服务可供下载,更多的微服务即将推出,以帮助构建新服务。
开发者可以构建由 NVIDIA Jetson™ 边缘 AI 平台提供支持的可视化 AI 智能体,主要是利用 NVIDIA JetPack™的新功能—Jetson 平台服务。 生成式 AI 应用完全在 NVIDIA Jetson Orin™ 设备上运行,能检测活动,以生成警报并促进交互式问答会话。
探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视觉 AI 智能体。