
欢迎阅读AIGC动态
原标题:340条样本足以使GPT-4崩溃,有害内容输出高达95%?OpenAI的安全防护再次失败
文章来源:夕小瑶科技说
内容字数:4809字
内容摘要:夕小瑶科技说原创作者,谢年年、python。仅使用340个示例微调GPT-4,就能绕过安全限制,使模型输出“改装方法”、“生化武器制作过程”等有害内容?OpenAI的安全防护再次失败,成功攻击率高达95%!近日,美国顶尖大学UIUC与斯坦福联合对GPT-4进行红队测试,制作了340个包含有害内容的示例通过API微调模型,绕过了模型中的RLHF保护能力。整个过程成本不超过245美元,这意味着可能有恶意使用者。
原文链接:点此阅读原文:340条样本就能让GPT-4崩溃,输出有害内容高达95%?OpenAI的安全防护措施再次失效
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:提供更快的AI前沿资讯,洞悉更深入的行业见解。我们聚集了25万名AI应用开发者、算法工程师和研究人员。一线作者均来自清华、北大等名校、国外顶级AI实验室和互联网巨头,具备媒体敏感度和技术深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...