Transformer新解码算法助力token预测速度翻倍，小羊驼团队发布开源代码

AIGC动态欢迎阅读

以下为量子位所发布的重要文章内容摘要：小羊驼团队最新研究成果备受关注。他们成功开发出一种新型解码算法，能够使模型在预测100个token时的速度提高1.5-2.3倍，从而加快LLM推理过程。以LLaMa-2-Chat 7B模型为例，当面对同一用户提问“苏格拉底采用了哪些方法来挑战他那个时代的主流思想？”时，新算法的输出速度明显快于传统算法。传统算法耗时18.12秒，每秒处理大约35个token；而新算法仅需10.4秒，每秒处理约60个token，可见提升明显。该算法名为”Lookahead Decoding”（前向解码），采用雅可比（Jacobi）迭代法，首次打破了自回归解码中的顺序依赖性。这一创新使得在不需要借助草稿模型或数据存储的情况下，可以减少解码步骤，加快LLM推理速度。

原文链接：[点击阅读原文：预测token速度翻番！Transformer新解码算法火了，来自小羊驼团队｜代码已开源](原文链接)