利用此工具包,大型模型推理性能提升达到40倍

利用此工具包,大型模型推理性能提升达到40倍的封面图

本文介绍了英特尔公司推出的一个创新工具包——英特尔®Extension for Transformer,可以显著加速基于Transformer的大语言模型(Large Language Model, LLM)。该工具包通过扩展Hugging Face transformers API等方式,在CPU上实现出色的LLM推理性能,首个token和下一个token的推理速度分别提升多达40倍和2.68倍。文章指出,这个工具包能满足更多场景应用需求,特别适用于英特尔®至强®可扩展处理器(Sapphire Rapids,SPR)平台。如需了解更多详情,请阅读原文:用上这个工具包,大模型推理性能加速达40倍

如果您想联系作者,可以添加作者微信号:QbitAI。作者专注追踪人工智能新趋势,关注科技行业的创新突破。感谢阅读量子位的报道。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...