DeepMind称Transformer模型泛化能力受预训练数据限制,引发质疑

DeepMind称Transformer模型泛化能力受预训练数据限制,引发质疑的封面图

本文报道来自机器之心的一篇关于DeepMind指出Transformer在超出预训练数据范围时无法实现泛化能力的文章。该文章探讨了大语言模型在提供上下文样本的情况下,通过输入生成响应的能力,以及Transformer模型在这一过程中的作用。同时,对于Transformer无法在预训练数据之外实现泛化的观点也引起了一些质疑。文章的原文链接为指向DeepMind的相关研究。如果需要更多信息,可联系作者微信号almosthuman2014。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...