上交大推理引擎：4090性能超越A100，生成速度仅比A100慢18%

文章内容主要介绍了上海交大团队推出的超强 CPU/GPU LLM 高速推理引擎 PowerInfer。该推理引擎在单个 NVIDIA RTX 4090 GPU 上运行时，平均 token 生成速率为13.20 tokens/s，峰值为29.08 tokens/s，只比顶级服务器 A100 GPU 低18%。同时，在单个 RTX 4090 上运行 Falcon (ReLU)-40B-FP16 时，相较于最先进的本地 LLM 推理框架 llama.cpp，PowerInfer 实现了11倍的加速并保持模型准确性。

这一消息被机器之心编辑部PowerInfer 报道，并指出 PowerInfer 是用于本地部署 LLM 的高速推理引擎，通过巧妙设计实现了较高的性能。

如需了解更多内容，可访问原文链接：4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了。联系作者可通过微信 almosthuman2014。

AIGC动态 # AIGC动态 # 内存 # 峰值 # 模型 # 神经元 # 离线

文章版权归作者所有，未经允许请勿转载。

相关AI热点

暂无评论

暂无评论...

上交大推理引擎：4090性能超越A100，生成速度仅比A100慢18%

百川智能创下5000万tokens大规模搜索记录，新增192K超长上文支持和搜索增强技术，解决商用定制难题，可满足99%企业需求

探讨 AI 技术新未来：QCon15 上海站大模型技术应用展

相关AI热点

OpenAI宣布推广GPT-4.5人工智能模型的新举措

海斌访谈：DeepSeek如何重塑中国大模型产业生态

AI助力！民警寻回70名失踪被拐儿童，含18名无童年照片者

AI与5G赋能大模型基础设施建设，构筑全面智能社会基石

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

实现通用智能：机器如何从自然模态学习到世界模型？

AI 时代：强劲至强！云服务如何保驾护航？

暂无评论

AI热榜