本文报道了新泽西理工学院等机构最新发表的关于大型语言模型可解释性的综述。大型语言模型在自然语言处理领域展示了令人印象深刻的能力,但其内部机制仍然不清楚,这种不透明性可能会对下游应用带来风险。因此,理解和解释这些模型对于阐明其行为、局限性和社会影响至关重要。文章介绍了可解释性技术的分类体系,并提供了关于解释基于Transformer的语言模型方法的结构化概述。根据大型语言模型的训练范式进行分类,包括传统的微调范式和基于提取信息的范式等。如果您想深入了解内容,可以点击原文链接查看完整文章。