LLM推理性能提升25倍！苹果采用超高效内存优化，将大型模型运行于iPhone，实现2秒视频生成逼真3D效果

新智元报道：AIGC动态

原标题：LLM推理速度提升25倍！苹果通过高效内存优化让大型模型适应iPhone，实现2秒内生成逼真3D化身
关键词：神经元、闪存、模型、数据、加载
文章来源：新智元
文章长度：6248字

内容摘要：

编辑：alan，新智元报道
【新智元摘要】最近，苹果发表了两篇论文，不仅能够一键生成逼真的3D形象，还能将大型模型嵌入您的iPhone中。想象一下，在不久的将来，这一设想可能会成为现实！最近，苹果发布了一篇备受关注的论文，旨在探索在有限内存条件下运行大型语言模型。
论文链接：https://arxiv.org/pdf/2312.11514.pdf
通过软硬件协同优化，苹果使设备能够支持运行模型的大小达到其自身DRAM的两倍！在这项技术的支持下，LLM在Apple M1 Max CPU上的推理速度提高了4-5倍，在GPU上提高了20-25倍。从LLM推理延迟比较图中可以看出，苹果提出的方法效果非常显著。这些优化很快可能会让复杂的AI助手或机器人在iPhone、iPad和其他移动设备上运行更加流畅。
当前，由生成式AI主导，大多数人希望将模型做得更大更强，例如可能具有万亿参数的GPT-4（OpenAI的登月计划甚至更为夸张）；另一些人则在探索“小模型”的潜力，比如以7B参数平衡70B的Llama Zephyr。

原文链接：LLM推理飙升25倍！苹果超高效内存优化将大模型塞进iPhone，2秒视频生成逼真3D化身