上交大推理引擎:4090性能超越A100,生成速度仅比A100慢18%

上交大推理引擎:4090性能超越A100,生成速度仅比A100慢18%的封面图

文章内容主要介绍了上海交大团队推出的超强 CPU/GPU LLM 高速推理引擎 PowerInfer。该推理引擎在单个 NVIDIA RTX 4090 GPU 上运行时,平均 token 生成速率为13.20 tokens/s,峰值为29.08 tokens/s,只比顶级服务器 A100 GPU 低18%。同时,在单个 RTX 4090 上运行 Falcon (ReLU)-40B-FP16 时,相较于最先进的本地 LLM 推理框架 llama.cpp,PowerInfer 实现了11倍的加速并保持模型准确性。

这一消息被机器之心编辑部PowerInfer 报道,并指出 PowerInfer 是用于本地部署 LLM 的高速推理引擎,通过巧妙设计实现了较高的性能。

如需了解更多内容,可访问原文链接:4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了。联系作者可通过微信 almosthuman2014。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...