Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected

      使用 GPU embedding cache 加速 CTR 推理过程

      , GPU 计算专家/GPU Computing Expert, NVIDIA
      本演讲旨在介绍一种 GPU 上实现的数据结构,用于缓存频繁访问的 embedding table 的内容,以加速在 GPU 上运行的 CTR 推理任务的速度。 CTR 推理过程中,需要频繁访问训练得到的 embedding table 。由于 embedding table 通常容量巨大,故很难放在 GPU 内存中。因此,访问 embedding table 通常需要访问 CPU 内存,甚至跨网络访问参数服务器。这使得运行在 GPU 上的 CTR 推理过程显得不是很高效。本演讲提出了一种实现在 GPU 内存上的缓存,以发掘 CTR 推理过程中对于 embedding table 访问的局部性,并试图降低 CTR 推理流程的延迟,提高吞吐。
      活动: GTC China
      日期: December 2020
      话题: AI 推理
      行业: Consumer Internet Company (CIC)
      级别: 中级技术
      语言: Chinese(Simplified)
      所在地: