<img src="
">
阅读AIGC动态欢迎
原标题:香港浸会大学初探可信大语言模型:用深度催眠诱导LLM “越狱”
文章来源:机器之心
内容字数:9148字
内容摘要:大语言模型(LLM)在各个领域取得了巨大成功,但容易受到某些提示的诱导,导致模型绕过内置的安全防护,展示出一些危险或违法内容,即“越狱”。深入理解这种“越狱”的原理,并加强相关研究,有助于促进人们对大型模型安全性的重视,完善这些模型的防御机制。本文提出了一种轻量级的“越狱”方法:DeepInception,受米尔格拉姆实验启发,从心理学角度出发,通过深度催眠LLM使其成为越狱者,并能够自行规避内置的安全防护。论文链接:点击阅读详情
原文链接:点击阅读原文:用深度催眠诱导LLM「越狱」,香港浸会大学初探可信大语言模型
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...