游戏

Activision 利用 NVIDIA vGPU 加速游戏开发

目标

Activision,“使命召唤 (Call of Duty)”系列游戏背后的全球领导者,利用 NVIDIA 虚拟 GPU (vGPU) 技术打造了一个革命性的全球测试和部署平台,以加速部署周期、增强稳定性并优化游戏生命周期每个阶段的测试,从而简化其游戏开发工作流。

客户

Activision

使用案例

数据中心/云

产品

NVIDIA vGPU
NVIDIA RTX GPU

主要业务影响

  • 数据中心占地面积减少 82%,电力消耗降低 72%。
  • 更快的代码提交前验证和更广泛的测试覆盖范围使得每天可处理超过 250,000 项任务,减少了持续集成延迟并提高了 3000 多名开发者的团队速度。
  • 减少了基础设施碎片化,简化了全球管理,并在 500 多台服务器上扩展测试,减少了宕机时间和复杂性。

游戏开发的新时代

在多平台电子游戏开发的高风险世界中,图形保真度和技术性能与引人入胜的游戏体验和故事一样重要。为满足不断增长的测试需求,Activision 开发了 Compass 自动化系统,旨在评估和验证游戏代码、游戏地图、发布版本和分支维护。该系统在 Activision 的持续集成和持续开发 (CI/CD) 基础设施上运行。

Compass 最初为单工作室开发而设计,但随着“使命召唤 (Call of Duty)”扩展到环境复杂的多工作室运营,该系统很快就面临三大关键挑战:

  • 稳定性:确保高代码质量并及时识别多工作室代码库中的回归问题至关重要。由工具变更、资产工作流更新或图形代码修改而导致的回归错误必须被迅速检测到并解决,以防影响 QA 或让玩家遇到。
  • 可扩展性:支持针对各种游戏模式、平台和大型环境(如“战争地带 (Warzone)”)进行数千次并发测试。基础设施需要容纳 3,000 至 5,000 个计算节点连续运行,且不会在负载高峰期间出现瓶颈。
  • 灵活性:快速重新配置环境,以满足各种硬件目标和开发需求,从轻量级 GPU 任务到更繁重的 GPU 密集型工作负载(如离线地图编译),这需要精细的资源分配。

在实施 NVIDIA 虚拟 GPU (vGPU) 之前,Activision 的 CI 基础设施依赖于工作站级系统和小型 GPU 服务器集群,其中每个系统最多有四个 GPU,分布在不同站点。这些设置单独运行良好,但由于没有集中控制,资源共享受到限制,测试效率也受到影响。一个区域的计算资源处于闲置状态,而另一个区域的队列则不断增加。开发者面临延迟,协调开销增加,而扩展系统只会增加复杂性。Activision 需要一个具有密集虚拟化、灵活的 GPU 分配和集中管理功能的统一基础设施,以将 Compass 发展成为全球 CI/CD 主干。

“我们看到的最大趋势是扩展…… 我们从 6v6 多人地图发展到支持 150–200 名玩家的 4x4 公里环境。这是规模上的巨大变化,也是测试上的重大改变。”

Activision 高级副总裁 Michael Vance

 

改造 Activision 强大、可扩展的 CI/CD 解决方案

Activision 利用 NVIDIA vGPU 技术和 NVIDIA GPU 彻底改造了其 CI/CD 基础设施,实现了强大的企业级工作流。这一架构改造使 Compass 成为了一个强大的系统,每天为 3,000 名开发者处理超过 250,000 项任务。新解决方案的主要特性包括:

  • 高密度虚拟化:每台服务器运行 4–24 个虚拟机 (VM),使用 NVIDIA RTX™ 虚拟工作站配置文件,每个 vGPU 至少配备 8 GB VRAM。这使得 Activision 能够更有效地将计算配置文件映射到特定的任务需求,从而消除资源浪费,并实现数千个作业并行执行。
  • 集中管理:简化全球运营和资源分配。由 NVIDIA vGPU 驱动的虚拟工作站集群在本地和混合云环境中提供了一致的性能和监控。
  • 灵活的资源划分:针对从轻量级任务到繁重离线计算的各种测试需求进行了优化。以前由于 24 GB 显存上限而失败或停滞的工作负载现在可进行大规模处理,且可靠性更高,需要的人工分类更少。
  • 企业级可靠性:依靠企业支持来保持业务连续性,避免关键的开发和工程设计停机。

这套专用基础设施可快速完成复杂任务,包括自动多玩家验证、通过屏幕截图比较进行视觉回归检查,以及针对各种游戏模式、地图和硬件目标进行性能测试。Compass 在本地和云基础设施中的 500 台主机上运营 3,000–5,000 个计算节点,并在全球各地部署众多小型安装,提供下一代性能。

可衡量的收益:Activision 实现了生产力和性能的飞跃

Activision 在部署 NVIDIA vGPU 驱动的基础设施后,其开发工作立即受到了显著的影响:

  • 数据中心整合:从 100 台单独的 1U 服务器减少到仅 6 台 3U 服务器,机架空间需求减少了 82%。这种整合是通过在更少的主机上提供高密度 vGPU 支持来实现的,从而在减少物理基础设施的同时增加容量。
  • 节省能源和冷却成本:用电量降低 72%,热负荷降低 73%,显著降低了运营成本。这些收益既反映了 NVIDIA GPU 每瓦性能的提升,也反映了数据中心环境中机箱数量的减少。
  • 提高生产力:更高的 vGPU 密度支持更多的并发测试运行器,从而扩大测试覆盖范围并加速反馈。各团队能够运行更多并行作业,从而提高 Radiant 验证、运行时检查和自动化预检测试等 CI 任务的吞吐量。
  • 提高代码质量:更广泛的测试覆盖范围有助于尽早检测问题,从而减少到达 QA 和零售环节的错误,提升玩家体验。更快地检测渲染、资产和性能回归,使工程团队能够在问题影响发布版本之前将其解决。

通过将智能调试系统、可扩展的测试基础设施和实时性能分析深度嵌入到开发工作流中,由 NVIDIA vGPU 加速的 Compass 不仅有助于满足预期,还有助于重新定义预期。

“通过我们在 GPU 项目上所做的改变,我们大幅减少了 GPU 机箱占用的物理空间,从大约 100 个机架减少到大约 6 个,这得益于 NVIDIA GPU 解决方案带来的密度提升。我们还看到数据中心的功耗效率和冷却性能得到了巨大改善,这直接转化为节省开支和降低维护开销。”

Activision 高级副总裁 Michael Vance

重新定义企业级游戏开发工作流

Activision 的历程展示了 NVIDIA vGPU 技术以及 NVIDIA GPU (包括 NVIDIA RTX A5000 和 RTX A6000) 如何将分布式和孤岛式基础设施转变为统一、高效且可扩展的企业环境。寻求类似成果的组织可以利用 NVIDIA 的解决方案对其基础设施进行现代化改造,并推动大规模创新。Activision 计划采用基于 RDMA 的计算内存网络和 NVIDIA® ConnectX® 网卡,通过降低延迟并提高大型地图构建和资产编译的吞吐量,不断突破 CI/CD 基础设施性能的界限。与 NVIDIA 的密切合作确保 Activision 能够随着开发者需求的变化调整其设备集群和采用新平台。

详细了解 NVIDIA vGPU 解决方案。

相关客户案例