OpenAI安全系统负责人探讨：大规模模型的对抗攻击和防御策略

本文介绍了OpenAI安全系统负责人Lilian Weng的长文，对大型语言模型（LLM）的对抗攻击与防御进行了梳理。虽然大多数商用和开源LLM都设有内置安全机制，但并不能完全防御不同形式的对抗攻击。随着ChatGPT的推出，大型语言模型应用逐渐普及，因此OpenAI安全系统团队投入大量资源研究如何为模型构建默认的安全行为。然而，仍有对抗攻击和prompt越狱可能导致模型输出意外结果的情况。当前对抗攻击研究大多集中在图像领域，在连续的高维空间展开。但对于文本领域，相关研究仍有待进一步深入。

原文链接：点此阅读原文：OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御