斯坦福研究新方法:让模型「自毁」以消除有害任务信息

斯坦福研究新方法:让模型「自毁」以消除有害任务信息

AIGC动态欢迎阅读

本文转载自量子位,原标题为:为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了。

该研究针对大型模型可能用于有害任务的问题,斯坦福研究人员提出了一种新方法,通过向模型训练添加附加机制,使模型能够「遗忘」有害任务信息。这种训练出的模型被称为“自毁模型”,其在处理有益任务时表现高效,但当面对有害任务时,则表现明显下降。这一方法的提出将对模型应用的安全性产生积极影响。

原文链接:点此阅读原文:为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了。

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:专注追踪人工智能新趋势,关注科技行业的最新突破。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...