
AIGC动态欢迎阅读
本文转载自量子位,原标题为:为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了。
该研究针对大型模型可能用于有害任务的问题,斯坦福研究人员提出了一种新方法,通过向模型训练添加附加机制,使模型能够「遗忘」有害任务信息。这种训练出的模型被称为“自毁模型”,其在处理有益任务时表现高效,但当面对有害任务时,则表现明显下降。这一方法的提出将对模型应用的安全性产生积极影响。
原文链接:点此阅读原文:为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了。
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:专注追踪人工智能新趋势,关注科技行业的最新突破。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...