
本文介绍了OpenAI安全系统负责人Lilian Weng的长文,对大型语言模型(LLM)的对抗攻击与防御进行了梳理。虽然大多数商用和开源LLM都设有内置安全机制,但并不能完全防御不同形式的对抗攻击。随着ChatGPT的推出,大型语言模型应用逐渐普及,因此OpenAI安全系统团队投入大量资源研究如何为模型构建默认的安全行为。然而,仍有对抗攻击和prompt越狱可能导致模型输出意外结果的情况。当前对抗攻击研究大多集中在图像领域,在连续的高维空间展开。但对于文本领域,相关研究仍有待进一步深入。
原文链接:点此阅读原文:OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...