利用此工具包，大型模型推理性能提升达到40倍

本文介绍了英特尔公司推出的一个创新工具包——英特尔®Extension for Transformer，可以显著加速基于Transformer的大语言模型(Large Language Model, LLM)。该工具包通过扩展Hugging Face transformers API等方式，在CPU上实现出色的LLM推理性能，首个token和下一个token的推理速度分别提升多达40倍和2.68倍。文章指出，这个工具包能满足更多场景应用需求，特别适用于英特尔®至强®可扩展处理器（Sapphire Rapids，SPR）平台。如需了解更多详情，请阅读原文：用上这个工具包，大模型推理性能加速达40倍。

如果您想联系作者，可以添加作者微信号：QbitAI。作者专注追踪人工智能新趋势，关注科技行业的创新突破。感谢阅读量子位的报道。