OpenAI发布人工通用智能（AGI）安全风险框架：董事会可随时叫停GPT-5等模型发布，奥特曼也得乖乖听话

AIGC动态欢迎阅读

原标题：OpenAI发布AGI安全风险框架！董事会可随时叫停GPT-5等模型发布，奥特曼也得乖乖听话
关键字：报告,模型,风险,团队,框架
文章来源：夕小瑶科技说
内容字数：4618字

内容摘要：

夕小瑶科技说原创作者 | 小戏、王二狗OpenAI再次强调模型安全性！AGI安全团队Preparedness发布模型安全评估与监控框架！
最近OpenAI强调模型的“安全性”，其安全系统（Safety Systems）负责人详细梳理了针对LLM的对抗攻击类型与防御方法，而“超级对齐”团队（Superalignment）则发表了论文探讨使用小模型监督对齐大模型。这些工作始终强调“随着模型逐渐接近AGI……”
今日，OpenAI宣布了一项新的安全性举措，由OpenAI负责AGI安全性的新团队Preparedness推出了“Preparedness框架”，这一系统文件负责对模型的安全性进行评估与监控，详细介绍了OpenAI目前针对模型安全评估与监控的工作思路：
Preparedness框架的提出背景主要基于两个OpenAI判断：
（1）我们的系统正在逐渐接近AGI

原文链接：OpenAI发布AGI安全风险框架！董事会可随时叫停GPT-5等模型发布，奥特曼也得乖乖听话