人大高瓴发布“注意力波”新方法，Llama 模型拥有 70 亿参数，堪比 GPT-4

近期，人大高瓴提出了一种名为“注意力波”方法，旨在提升大型语言模型（LLM）在处理复杂上下文时的性能。这一方法将注意力机制比作木桶中的水在不同木板停留或流动的情形，以此形象地表达模型对不同位置的关注程度。作者提出了“Attention Buckets”概念，通过不同角度的处理方式来弥补注意力机制的局限性，使得模型能更全面地理解和处理复杂的上下文信息，降低错过关键信息的风险。在实验中，这一方法与GPT-4性能水平相匹配，显示出潜在的应用前景。如果您对该主题感兴趣，可以查看原文链接获取更多信息。