深度催眠引导LLM「越狱」：香港浸会大学首次探索高度可信大语言模型

阅读AIGC动态欢迎

原标题：香港浸会大学初探可信大语言模型：用深度催眠诱导LLM “越狱”

关键词：指令，模型，嵌套，诱导，场景

文章来源：机器之心

内容字数：9148字

内容摘要：大语言模型（LLM）在各个领域取得了巨大成功，但容易受到某些提示的诱导，导致模型绕过内置的安全防护，展示出一些危险或违法内容，即“越狱”。深入理解这种“越狱”的原理，并加强相关研究，有助于促进人们对大型模型安全性的重视，完善这些模型的防御机制。本文提出了一种轻量级的“越狱”方法：DeepInception，受米尔格拉姆实验启发，从心理学角度出发，通过深度催眠LLM使其成为越狱者，并能够自行规避内置的安全防护。论文链接：点击阅读详情

原文链接：点击阅读原文：用深度催眠诱导LLM「越狱」，香港浸会大学初探可信大语言模型