OpenAI安全措施再次失效:仅340条样本令GPT-4输出95%有害内容

OpenAI安全措施再次失效:仅340条样本令GPT-4输出95%有害内容

欢迎阅读AIGC动态

原标题:340条样本足以使GPT-4崩溃,有害内容输出高达95%?OpenAI的安全防护再次失败

关键词:模型、内容、美元作者、用户

文章来源:夕小瑶科技说

内容字数:4809字

内容摘要:夕小瑶科技说原创作者,谢年年、python。仅使用340个示例微调GPT-4,就能绕过安全限制,使模型输出“改装方法”、“生化武器制作过程”等有害内容?OpenAI的安全防护再次失败,成功攻击率高达95%!近日,美国顶尖大学UIUC与斯坦福联合对GPT-4进行红队测试,制作了340个包含有害内容的示例通过API微调模型,绕过了模型中的RLHF保护能力。整个过程成本不超过245美元,这意味着可能有恶意使用者。

原文链接:点此阅读原文:340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:提供更快的AI前沿资讯,洞悉更深入的行业见解。我们聚集了25万名AI应用开发者、算法工程师和研究人员。一线作者均来自清华、北大等名校、国外顶级AI实验室和互联网巨头,具备媒体敏感度和技术深度。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...