OpenAI安全系统负责人探讨:大规模模型的对抗攻击和防御策略

OpenAI安全系统负责人探讨:大规模模型的对抗攻击和防御策略的封面图

本文介绍了OpenAI安全系统负责人Lilian Weng的长文,对大型语言模型(LLM)的对抗攻击与防御进行了梳理。虽然大多数商用和开源LLM都设有内置安全机制,但并不能完全防御不同形式的对抗攻击。随着ChatGPT的推出,大型语言模型应用逐渐普及,因此OpenAI安全系统团队投入大量资源研究如何为模型构建默认的安全行为。然而,仍有对抗攻击和prompt越狱可能导致模型输出意外结果的情况。当前对抗攻击研究大多集中在图像领域,在连续的高维空间展开。但对于文本领域,相关研究仍有待进一步深入。

原文链接:点此阅读原文:OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御

© 版权声明

相关AI热点

暂无评论

none
暂无评论...