OpenAI安全措施再次失效：仅340条样本令GPT-4输出95%有害内容

AIGC动态3年前发布 AI工具箱

OpenAI安全措施再次失效：仅340条样本令GPT-4输出95%有害内容

欢迎阅读AIGC动态

原标题：340条样本足以使GPT-4崩溃，有害内容输出高达95%？OpenAI的安全防护再次失败

关键词：模型、内容、美元、作者、用户

文章来源：夕小瑶科技说

内容字数：4809字

内容摘要：夕小瑶科技说原创作者，谢年年、python。仅使用340个示例微调GPT-4，就能绕过安全限制，使模型输出“改装方法”、“生化武器制作过程”等有害内容？OpenAI的安全防护再次失败，成功攻击率高达95%！近日，美国顶尖大学UIUC与斯坦福联合对GPT-4进行红队测试，制作了340个包含有害内容的示例通过API微调模型，绕过了模型中的RLHF保护能力。整个过程成本不超过245美元，这意味着可能有恶意使用者。

原文链接：点此阅读原文：340条样本就能让GPT-4崩溃，输出有害内容高达95%？OpenAI的安全防护措施再次失效

联系作者

文章来源：夕小瑶科技说

作者微信：xixiaoyaoQAQ

作者简介：提供更快的AI前沿资讯，洞悉更深入的行业见解。我们聚集了25万名AI应用开发者、算法工程师和研究人员。一线作者均来自清华、北大等名校、国外顶级AI实验室和互联网巨头，具备媒体敏感度和技术深度。

AIGC动态 # AIGC动态 # 作者 # 内容 # 美元

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关AI热点

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

AI工具箱2年前

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

AI工具箱2年前

实现通用智能：机器如何从自然模态学习到世界模型？

实现通用智能：机器如何从自然模态学习到世界模型？

AI工具箱2年前

AI 时代：强劲至强！云服务如何保驾护航？

AI 时代：强劲至强！云服务如何保驾护航？

AI工具箱2年前

Midjourney V6发布全新版本！生图效果超越DALL·E3，逼真画面光影细节达到巅峰

Midjourney V6发布全新版本！生图效果超越DALL·E3，逼真画面光影细节达到巅峰

AI工具箱2年前

23年生成式人工智能全球投资超过360亿美元！开发者预测2024年大规模语言模型应用将迎来爆发。

23年生成式人工智能全球投资超过360亿美元！开发者预测2024年大规模语言模型应用将迎来爆发。

AI工具箱2年前

12所高校机构发布150页报告，揭秘「大模型推理」，概述750篇论文

12所高校机构发布150页报告，揭秘「大模型推理」，概述750篇论文

AI工具箱2年前

Sam Altman公布2023年终总结，分享17条箴言震撼网络！

Sam Altman公布2023年终总结，分享17条箴言震撼网络！

AI工具箱2年前

暂无评论

none

暂无评论...