NVIDIA 在线研讨会
演讲简介
在本次峰会中,您将能听取来自 NVIDIA、阿里巴巴、腾讯、美团技术专家关于他们如何构建和部署有效的现代推荐系统的学习和最佳实践。
NVIDIA Merlin GPU 推荐系统介绍
Merlin 是 NVIDIA 在 GPU 上端到端推荐系统框架,从前处理,训练到推理都提供了优化和加速方案。本次介绍会着重关注以下几个问题:
1. 高性能:如何跨平台实现到高达 12 倍的训练加速
2. 经济适用:如何物尽其用,结合业务模型特点和硬件成本,实现高效率训练和部署 TB 级大模型
3. 灵活易用:如何短短几行代码实验各种模型
DeepRec:搜推广场景下的 GPU 训练与预测
DeepRec(PAI-TF) 是阿里巴巴集团统一的大规模稀疏模型训练/预测引擎,DeepRec 在分布式、图优化、算子、Runtime 等方面对稀疏模型进行了深度性能优化,同时提供了稀疏场景下特有的 Embedding 相关功能。介绍 DeepRec 中 GPU 优化相关的工作,包括:
1. GPU Runtime 优化
2. EmbeddingVariable 多级混合存储
3. 分布式优化 - HB & SOK with EmbeddingVariable
美团本地生活场景大规模推荐系统的 GPU 实践
在美团推荐系统训练场景,随着模型越来越复杂,CPU 上优化的边际效应越来越低。美团基于内部深度定制的 TensorFlow、NVIDIA HugeCTR,研发了 Booster GPU 训练架构。整体设计充分考虑算法、架构、新硬件的特性,并从数据、计算、通信等多个角度深度优化,对比之前 CPU 的任务,性价比提升到 2~4 倍。从功能和完备性上支持 TensorFlow 的各类训练接口(train/evaluate/predict 等),支持 CPU 和 GPU 模型相互导入。易用性上TensorFlow CPU 任务只需要一行代码就可完成 GPU 架构迁移。
腾讯 PCG 大规模机器学习框架 - 无量的 GPU 训练加速
随着人们对信息流推荐的要求越来越高。更多特征被应用到更复杂的机器学习模型上。特征越多,参数量越大,能够更好地描述样本空间,即能为用户提供更优质的推荐内容。因此,利用进行 GPU 加速训练和推理预测成为目前“搜广推”方向的机器学习框架研究的一个热门方向。本次分享将围绕腾讯 PCG 大规模机器学习框架-无量在 GPU 训练加速方面的落地与实践经验,探讨 GPU 等异构加速技术落地的高性价比方案。
演讲者
高文雯
NVIDIA 高级产品经理
NVIDIA Merlin 高级产品经理, 在此之前曾在亚马逊以及多家科技公司担任产品经理。本科毕业于加拿大多伦多大学计算机系,并在美国麻省理工斯隆商学院获得 MBA 学位。
王泽寰
NVIDIA 高级开发经理
王泽寰是 GPU 推荐系统框架 Merlin HugeCTR / Rnn 推理加速框架 RnnEngine 的主要作者和开发经理,也是 NVIDIA 亚太 GPU 计算专家研发团队经理。他毕业于北京邮电大学,自 2012 年加入 NVIDIA 一直从事 GPU 加速解决方案相关工作。
刘童璇
阿里云智能计算平台事业部 PAI 高级技术专家
阿里巴巴计算平台事业部机器学习平台PAI高级技术专家,长期从事机器学习平台/深度学习框架的研发工作,负责大规模稀疏模型的训练和预测,长期支持阿里搜索、推荐、广告等核心业务,DeepRec 负责人(稀疏模型训练/预测引擎)。
让家恒
美团 机器学习引擎技术专家
2017 年硕士毕业后加入美团,先后从事于大规模集群调度系统开发、深度学习训练引擎开发,在大规模稀疏场景 CPU、GPU 端训练性能优化有多次实践、落地经验。
陈卓
美团 机器学习引擎技术专家
主要在美团数据平台部门做机器学习系统方面的工作,涉及深度学习模型的计算图优化、算子优化、推理加速和框架开发。 演讲内容简介:主要分享美团数据平台部门支对于 CTR 场景的深度学习模型 GPU 推理方面的一些实践。
骆兆楷
腾讯 PCG 机器学习引擎技术专家
骆兆楷,机器学习引擎技术专家。2016 年加入 NVIDIA,参与早期 TensorRT 开发。2018 年加入阿里巴巴达摩院,参与构建无人驾驶系统的异构计算平台。2020 年加入腾讯 PCG,主导 PCG 机器学习框架的训练与推理的构建。多年来致力于异构加速技术的研究和实践。