大模型的异构计算和加速:加速方法,包括XPU异构计算,多个模型的精度,推理算法优化

2024/11/29 14:01:56 1763 
 

《大模型专题:大模型的异构计算和加速》由英特尔院士戴金权在AiCon人工智能开发与应用大会上的演讲内容整理而成。报告介绍了大语言模型的异构计算和加速相关技术。先阐述大语言模型基于Transformer解码器架构的自回归模型原理。接着分析大模型推理和训练面临的瓶颈,包括内存带宽、计算、显存大小和分布式计算等方面。

报告重点介绍了大模型的异构计算和加速方法。包括XPU异构计算,涉及CPU、GPU、NPU等硬件加速;低比特计算,如模型量化/压缩、数据类型选择、低比特算子应用以及对显存使用量和训练微调的影响,并对比了不同量化方式下多个模型的精度;还介绍了推理算法优化,涵盖Self - speculative decoding、KV Cache compression等多种方式。

此外,报告还介绍了IPEX - LLM开源大模型XPU加速框架及其应用场景,如在Intel Core Ultra AI PC、Intel Arc A770 GPU等不同硬件上的加速体验,包括Office助手、工业机器人代码生成、AI座舱 - 汽车助理等多个应用案例展示了英特尔XPU在大模型应用创新方面的成果,并鼓励关注和试用IPEX - LLM,在Intel XPU平台开发大模型及其应用。


附件:大模型的异构计算和加速:加速方法,包括XPU异构计算,多个模型的精度,推理算法优化



 
上一篇   下一篇
 
返回顶部
  技术支持
  关于创泽
  隐私条款
咨询热线
 
销售咨询
4006-935-088 / 4006-937-088
 
客服热线
4008-128-728

版权所有 @ 创泽智能机器人集团股份有限公司
运营中心 / 北京市·清华科技园九号楼5层
生产中心 / 山东省日照市开发区太原路71