深度催眠引导LLM「越狱」:香港浸会大学首次探索高度可信大语言模型

<img src="深度催眠引导LLM「越狱」:香港浸会大学首次探索高度可信大语言模型">

阅读AIGC动态欢迎

原标题:香港浸会大学初探可信大语言模型:用深度催眠诱导LLM “越狱”

关键词:指令,模型,嵌套,诱导,场景

文章来源:机器之心

内容字数:9148字

内容摘要:大语言模型(LLM)在各个领域取得了巨大成功,但容易受到某些提示的诱导,导致模型绕过内置的安全防护,展示出一些危险或违法内容,即“越狱”。深入理解这种“越狱”的原理,并加强相关研究,有助于促进人们对大型模型安全性的重视,完善这些模型的防御机制。本文提出了一种轻量级的“越狱”方法:DeepInception,受米尔格拉姆实验启发,从心理学角度出发,通过深度催眠LLM使其成为越狱者,并能够自行规避内置的安全防护。论文链接:点击阅读详情

原文链接:点击阅读原文:用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业人工智能媒体和产业服务平台

© 版权声明

相关AI热点

暂无评论

none
暂无评论...