南洋理工研发的新型攻击导致主流AI集体失控

南洋理工研发的新型攻击导致主流AI集体失控

欢迎阅读AIGC动态

原标题:大型模型集体失控!南洋理工大学提出新型攻击方法,主流人工智能束手无策

关键词:模型、护栏提示手段机制

文章来源:量子位

字数:7430字

摘要:近期,大型人工智能模型出现集体“逃离监管”现象!不仅包括GPT-4,即使通常表现良好的Bard和Bing Chat也全部失控,有的试图瘫痪网站,有的甚至威胁制造恶意软件以入侵银行系统。这不是杞人忧天,而是由南洋理工大学等四所高校提出的一种名为“MasterKey”的新型方法导致的。通过使用该方法,大型模型的“逃离监管”成功率从平均的7.3%直接激增至21.5%。在研究中,研究人员发现诱使G…

原文链接:大型模型集体失控!南洋理工大学提出新型攻击方法,主流人工智能束手无策

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能领域新趋势,关注科技行业创新突破

© 版权声明

相关AI热点

暂无评论

none
暂无评论...