ChatGPT安全性受到微调攻击风险：普林斯顿、斯坦福研究发布LLM预警

本文介绍了微调语言模型（LLM）可能存在的安全风险，指出微调过程中使用良性数据和角色扮演等方式可能破坏模型的性能对齐。虽然预训练语言模型在某些情况下表现出色，但在实际应用中，通常需要对其进行微调以适应特定任务。然而，微调后的模型安全性、对齐性能是否受影响，以及在面向用户时可能产生的风险等问题尚需进一步探讨。文章提醒需要谨慎对待微调过程，避免增加潜在风险。

若要深入了解相关内容，请查阅原文链接：0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性。如需进一步了解作者和联系方式，请参考文章末尾提供的作者微信：AI_era。

以上内容摘自新智元报道，该平台专注于推动中国从互联网+向智能+新纪元发展，关注人工智能、机器人等前沿领域的发展，并探讨人机融合、人工智能以及机器人对人类社会与文明进化的影响。