2080 Ti跑70B大模型？上交大新框架让LLM推理速度提升11倍

阅读AIGC动态的最新内容

原文标题：2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍
关键词：神经元，模型，速度，局部性，路由
文章来源：量子位
字数：7617字

内容摘要：

上海交大IPADS实验室由量子位编辑投稿|公众号 QbitAI。原本需要一张售价16万元的80G A100来完成的任务，现在仅需一张不到2万元的24G 4090！
上海交大IPADS实验室推出的开源推理框架PowerInfer，将大型模型的推理速度提高了11倍。
即使不进行量化，仅使用FP16精度，也能够让40B模型在个人电脑上运行；若进行量化处理，2080 Ti也能够轻松运行70B模型。
结合大型模型的独特特性，通过CPU与GPU的混合计算，PowerInfer在个人电脑的显存有限的情况下实现了快速推理。
与 llama.cpp 相比，PowerInfer 实现了高达11倍的加速，使40B模型在个人电脑上每秒能输出十个 token。
我们所熟悉的 ChatGPT，一方面有时会因访问量过大而宕机，另一方面也存在数据安全问题。
开源模型在很大程度上解决了这两个问题，但若缺乏高性能显卡，则运行速度常常让人感到沮丧：
而 PowerInfer 的问世正好解决了这个难题。
PowerInfer 一经发布即引起热烈反响，仅不到24小时便获得了500+颗星标，其中还有一颗是来自 llama.cpp 作者 Gerganov。
目前，PowerInf

原文链接：2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍