Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
      • Quality

      TACO-LLM:突破自回归限制,实现高效序列维并行推理的大模型优化方案

      , 异构计算专家工程师,异构研发负责人, 腾讯云
      AI 发展面临算力绝对数量紧缺、受软件因素制约已有算力难以发挥到极致,以及 AI 中间层软件缺乏通用性及易用性制约应用快速接入算力等多方面困难。而腾讯云异构智算+TACO-LLM 为算力的有效供给提供了有力保障。
      过去,行业里使用不同模型来实现不同任务。任务与算法高度绑定,只能进行任务与算法的协同设计,落到系统上,中间层要做很多不同的工作。现在,通过下游任务微调,同一个大语言模型可以实现不同任务。由于大模型高度统一了基础模型结构,我们得以专注于一个更狭窄的领域,应用、算法、系统之间可以进行协同优化,集中有限投入,应用的范围足够广阔。虽然不同公司的模型训练数据可能不同,但模型结构相似,足以使得好的中间层工具,可以最大程度发挥不同硬件的算力。
      TACO-LLM 正是在这个背景下针对大模型重新设计的一整套优化加速及运行时的推理引擎。TACO-LLM serving 不仅支持普通格式的输出,也支持 OpenAI 格式的输出。用户可以使用诸如 LangChain 的组件快速将后端部署为 ChatOpenAI 的类型,无缝衔接到已有的应用流中,实现快速对接算力上线。
      在优化设计上,社区的 vLLM 提出了基于 Paged Attention 的 continuous batching 的机制,极大地提升了推理效率,进一步释放了芯片算力,并优化了显存的编排与资源利用。但是大模型的自回归属性仍然极大影响了 MFU,距离充分释放 GPU 算力仍有极大空间。此外,当前几种不同的 Paged Attention 的实现在片上资源,例如 SRAM 的利用上,对越来越重要的长序列模型不够友好,仍很大程度上限制了算力的发挥。
      TACO-LLM 从根本上打破了模型自回归的限制,在 Paged Attention 基础上实现了序列维并行推理,我们称之为 TurboSeq Paged Attention。我们重新设计了 Attention 计算的并行模式和流水编排,对片上资源的利用实现了常数复杂度,从而理论上可以支持任意长序列的高性能推理,极大提高了长序列模型的算力利用率。在运行时的调度和迭代编排上,我们也做了大量的优化,以保证计算的并发性,减少不必要的同步。
      我们相信,依托腾讯云坚实可靠的AI基础设施硬件和自研 AI 基础软件,可以有效为市场提供多元、高效、优质的算力,为行业发展注入强劲动力。
      活动: GTC 24
      日期: March 2024
      话题: AI 推理
      行业: 所有行业
      NVIDIA 技术: Cloud / Data Center GPU,CUDA,cuDNN
      级别: 中级技术
      语言: 简体中文
      所在地: