攻击者

共 2 篇文章

谷歌Bard自然语言提示注入漏洞,可能导致数据泄露

本文来自机器之心的报道,标题为“谷歌Bard‘破防’,用自然语言,提示注入引起数据泄漏风险”。文章介绍了一种名为提示注入(Prompt Injection)的黑客技术,黑客可以通过该技术利用自然语言人工智能系统,特别是大型语言模型,来引发数据泄漏风险。这种攻击技术利用模型生成文本时对提示词的依赖,通...
谷歌Bard自然语言提示注入漏洞,可能导致数据泄露

斯坦福研究新方法:让模型「自毁」以消除有害任务信息

AIGC动态欢迎阅读本文转载自量子位,原标题为:为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了。该研究针对大型模型可能用于有害任务的问题,斯坦福研究人员提出了一种新方法,通过向模型训练添加附加机制,使模型能够「遗忘」有害任务信息。这种训练出的模型被称为“自毁模型”,其在处...
斯坦福研究新方法:让模型「自毁」以消除有害任务信息