2080 Ti跑70B大模型?上交大新框架让LLM推理速度提升11倍

2080 Ti跑70B大模型?上交大新框架让LLM推理速度提升11倍

阅读AIGC动态的最新内容

原文标题:2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
关键词:神经元,模型,速度局部性路由
文章来源:量子位
字数:7617字

内容摘要:


上海交大IPADS实验室由量子位编辑投稿|公众号 QbitAI。原本需要一张售价16万元的80G A100来完成的任务,现在仅需一张不到2万元的24G 4090!
上海交大IPADS实验室推出的开源推理框架PowerInfer,将大型模型的推理速度提高了11倍。
即使不进行量化,仅使用FP16精度,也能够让40B模型在个人电脑上运行;若进行量化处理,2080 Ti也能够轻松运行70B模型。
结合大型模型的独特特性,通过CPU与GPU的混合计算,PowerInfer在个人电脑的显存有限的情况下实现了快速推理。
与 llama.cpp 相比,PowerInfer 实现了高达11倍的加速,使40B模型在个人电脑上每秒能输出十个 token。
我们所熟悉的 ChatGPT,一方面有时会因访问量过大而宕机,另一方面也存在数据安全问题。
开源模型在很大程度上解决了这两个问题,但若缺乏高性能显卡,则运行速度常常让人感到沮丧:
而 PowerInfer 的问世正好解决了这个难题。
PowerInfer 一经发布即引起热烈反响,仅不到24小时便获得了500+颗星标,其中还有一颗是来自 llama.cpp 作者 Gerganov。
目前,PowerInf


原文链接:2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

© 版权声明

相关AI热点

暂无评论

none
暂无评论...