Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
      • Quality

      VLA:迈向自动驾驶物理智能体的关键一步

      , 自动驾驶技术研发负责人, 理想汽车
      在 GTC 2024 大会上,我们介绍了 DriveVLM-Dual,一种快-慢思考混合的自动驾驶系统,可协同发挥端到端 (传感器数据输入、轨迹输出) 模型和视觉语言模型 (VLM) 的优势。两个模型均基于大量人类驾驶数据进行训练,并展现出符合数据量扩展定律(data scaling law)的特性,系统在真实驾驶环境中的表现随训练数据量的增加而提升。双系统被部署在双 NVIDIA DRIVE AGX 车载平台上,并已经大规模交付给终端客户,覆盖超过 40 万辆汽车。今天,我们将介绍理想 VLA(视觉-语言-行动)模型。理想 VLA 模型将快慢系统结合为一个单一大模型并赋予该模型自主决定何时采用慢思维的能力。它实现了空间感知与理解、开放世界知识、语言推理和行动策略的统一并进行联合训练和优化。此模型已经部署在下一代单 NVIDIA DRIVE AGX 的车载平台上,展现出了诸多令人兴奋的特性和能力。这套系统可以被视为一个物理世界智能体的雏形,通过语言自然地与用户互动,执行复杂、开放世界的驾驶任务。这一进步不仅标志着技术上的飞跃,也预示着一种全新、前所未有的自动驾驶产品形态的出现。
      活动: GTC 25
      日期: March 2025
      行业: 汽车 / 运输
      话题: 计算机视觉 / 视频分析 - 计算成像
      NVIDIA 技术: DRIVE
      级别: 技术 - 高级
      语言: 简体中文
      所在地: