斯坦福研究新方法：让模型「自毁」以消除有害任务信息

AIGC动态3年前发布 AI工具箱

斯坦福研究新方法：让模型「自毁」以消除有害任务信息

AIGC动态欢迎阅读

本文转载自量子位，原标题为：为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了。

该研究针对大型模型可能用于有害任务的问题，斯坦福研究人员提出了一种新方法，通过向模型训练添加附加机制，使模型能够「遗忘」有害任务信息。这种训练出的模型被称为“自毁模型”，其在处理有益任务时表现高效，但当面对有害任务时，则表现明显下降。这一方法的提出将对模型应用的安全性产生积极影响。

原文链接：点此阅读原文：为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了。

联系作者

文章来源：量子位

作者微信：QbitAI

作者简介：专注追踪人工智能新趋势，关注科技行业的最新突破。

AIGC动态 # AIGC动态 # 任务 # 攻击者 # 模型 # 研究人员

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关AI热点

OpenAI宣布推广GPT-4.5人工智能模型的新举措

OpenAI宣布推广GPT-4.5人工智能模型的新举措

AI实验室1年前

海斌访谈：DeepSeek如何重塑中国大模型产业生态

海斌访谈：DeepSeek如何重塑中国大模型产业生态

AI实验室1年前

AI助力！民警寻回70名失踪被拐儿童，含18名无童年照片者

AI助力！民警寻回70名失踪被拐儿童，含18名无童年照片者

AI之家1年前

AI与5G赋能大模型基础设施建设，构筑全面智能社会基石

AI与5G赋能大模型基础设施建设，构筑全面智能社会基石

AI实验室1年前

微软用大型语言模型直接反编译二进制代码，化身专业反编译高手！

微软用大型语言模型直接反编译二进制代码，化身专业反编译高手！

AI工具箱2年前

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

AI工具箱2年前

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

AI工具箱2年前

实现通用智能：机器如何从自然模态学习到世界模型？

实现通用智能：机器如何从自然模态学习到世界模型？

AI工具箱2年前

暂无评论

none

暂无评论...