LLM推理性能提升25倍!苹果采用超高效内存优化,将大型模型运行于iPhone,实现2秒视频生成逼真3D效果

LLM推理性能提升25倍!苹果采用超高效内存优化,将大型模型运行于iPhone,实现2秒视频生成逼真3D效果

新智元报道:AIGC动态

原标题:LLM推理速度提升25倍!苹果通过高效内存优化让大型模型适应iPhone,实现2秒内生成逼真3D化身
关键词:神经元、闪存、模型、数据、加载
文章来源:新智元
文章长度:6248字

内容摘要:


编辑:alan,新智元报道
【新智元摘要】最近,苹果发表了两篇论文,不仅能够一键生成逼真的3D形象,还能将大型模型嵌入您的iPhone中。想象一下,在不久的将来,这一设想可能会成为现实!最近,苹果发布了一篇备受关注的论文,旨在探索在有限内存条件下运行大型语言模型。
论文链接:https://arxiv.org/pdf/2312.11514.pdf
通过软硬件协同优化,苹果使设备能够支持运行模型的大小达到其自身DRAM的两倍!在这项技术的支持下,LLM在Apple M1 Max CPU上的推理速度提高了4-5倍,在GPU上提高了20-25倍。从LLM推理延迟比较图中可以看出,苹果提出的方法效果非常显著。这些优化很快可能会让复杂的AI助手或机器人在iPhone、iPad和其他移动设备上运行更加流畅。
当前,由生成式AI主导,大多数人希望将模型做得更大更强,例如可能具有万亿参数的GPT-4(OpenAI的登月计划甚至更为夸张);另一些人则在探索“小模型”的潜力,比如以7B参数平衡70B的Llama Zephyr。


原文链接:LLM推理飙升25倍!苹果超高效内存优化将大模型塞进iPhone,2秒视频生成逼真3D化身

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。专注于人工智能、机器人等前沿领域的发展,关注人机融合以及人工智能和机器人对人类社会与文明进化的影响,引领中国智能时代。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...