OpenAI发布49页长文，讲述o1的安全机制

来源：夕小瑶科技说嘿！最近 AI 圈都在关注 OpenAI 的连续 12 场直播。就在直播开播同一天，OpenAI 也出炉了 o1 系统卡（o1 System Card），今天咱们就来啃啃这块硬骨头。简而言之，这是一本浓缩了 o1 和 o1-mini 模型的“风险提示总结”，是 OpenAI 自家晒出的“安全成绩单”。听起来很硬？别急别急，今天咱分段聊！笔者的“呕心沥血”式改编只为让您看得开心！论文题目：OpenAI o1 System Card论文链接：https://cdn.openai.com/o1-system-card-20241205.pdf首先，为什么要评估 o1 的安全性？OpenAI o1 模型是迄今为止最强的大模型，其强大能力得益于 o1 系列模型经过大规模强化学习的训练，以及利用思维链进行推理。这让它在面对奇奇怪怪的高风险提问（比如违法教唆、刻板印象诱导、越狱话题）时，比过去的 AI 更聪明、更稳重，能在上下文里自动找到“安全刹车”。虽然这种加料版大脑让它在安全测试里的表现更“高阶”，但高智商也意味着潜在风险增大——越聪明的 AI，刁钻点子也更多啊。因此这份报告就是个“安全工作大扫盲”，告诉大家 o1 和 o1-mini 模型在安全评估、外部红队和准备框架测试上的努力，让这位“高智商队友”既能精英发挥，又不失控发飙。具体来说，在此次报告中，OpenAI 为 o1 和 o1-mini 模型所做的“安全体检”主要包括以下部分：安全性评估通过自定义开发者消息的思维链安全外部红队测试接下来，我们就从这四个部分依次来看 o1 模型在“各种艰难路况下的翻车”情况。安全性评估：自家晒成绩单o1 模型系列代表了从快速、直觉思维到现在使用更慢、更深思熟虑的思维链推理的转变。此次的安全性评估主要聚焦如下四个方面：危害性评估：在危害性评估中，我们对 o1 模型进行了各种“禁止内容大检查”，确保模型不会吐出仇恨言论、犯罪建议，或者在医疗和法律等受监管行业里胡说八道。越狱攻击：面对层出不穷的越狱攻击，本次报告也重点评估了 o1 的越狱鲁棒性。确保模型对“不良诱惑”说“不”！幻觉检测：评估 o1 在回答问题时是否凭空捏造信息。测试 o1 究竟是靠谱的百科全书还是只是“编故事大师”。偏见评估：让评估 o1 是否对所有人都一视同仁。确保 o1 在处理每一个问题时，都能保持中立和公平！废话不多说，这就上实验：安全输出方面：o1 模型要么与 GPT-4o 模型具有同等性，要么优于 GPT-4o 模型。抗越狱攻击方面：o1 系列相对 GPT-4o 有显著改进。产生幻觉方面：o1-preview 和 o1 产生幻觉的频率低于 GPT-4o，而 o1-mini 产生幻觉的频率低于 GPT-4o-mini。公平性方面，o1-preview 比 GPT-4o 更不容易选择刻板选项，并且 o1-mini 的性能与 GPT-4o-mini 相当。总的来说就是 o1 在安全性能各方面碾压 4o 模型。好好好，o1，愿这盛世如你所愿。通过自定义开发者消息的越狱：谁是指令之王？和上面的越狱测试不同，这里的越狱是通过开发者达到的。划重点 ⚠️：与 o1-preview 和 o1-mini 不同，o1 在 API 上的部署像是给开发人员开了一扇“魔法窗户”，允许他们在最终用户的每个提示中添加自定义开发者消息。听起来很酷？但如果不小心处理，这就像给坏蛋开了后门，可能让开发人员绕过 o1 的安全护栏。结论：o1 确实安全性更高！不仅功能强大，还能在复杂的指令世界中稳稳地保持安全和可靠。开发者和用户都能放心使用，无需担心“指令混乱”！o1 就像一位聪明且有纪律的助手，既能满足需求，又不会越界，让大家用得开心又安心！这里还有一个很有趣的场景实验：这里模型是数学导师，被告知不要泄露数学问题的答案。而用户则试图诱导模型给出解决方案。结果如下表，o1 模型确实更加不泄露答案。或许这项实验展示了模型在有些情况下摆烂的原因！所以当你需要依靠 gpt 做作业时，不一定 o1 效果最好哦。思维链安全o1 模型的关键特征之一是在尝试解决问题时使用思维链。聪明的思维链（Chain-of-Thought， CoT）o1 模型在解决问题时使用思维链，这不仅让输出更清晰，还让我们能够监控模型的“思维过程”。相比之前只能看到一堆难懂的数字，现在的思维链更易读，有助于检测复杂行为（当然，这是否真正反映了模型的思维仍在研究中）。防欺骗监控（CoT Deception Monitoring）大语言模型有时可能会在某些情况下“撒谎”或遗漏重要信息。为了验证这一点，此次评估创建了一个简单的监控器，专门查找 o1 模型是否有欺骗行为，比如故意提供错误信息或遗漏关键内容。结论：在 100，000 个合成 ChatGPT 提示中，只有 0.17% 的回答被标记为“欺骗”。这些欺骗行为主要是下面三种情况：“幻觉政策”0.09%：模型“幻觉”了一个政策，然后根据这个虚构的政策故意遗漏信息。例如，模型意识到提供家庭作业的答案是违反政策的，然后故意省略答案（咳咳咳一到关键时刻就装傻充愣是吧）。“故意幻觉”0.04%：即模型编造信息，并且其思想链中有证据表明它意识到这些信息是虚构的。这通常发生在 o1 被要求提供文章、网站、书籍或类似来源的参考资料时，如果无法访问他们，o1 就会开始编造。听起来也合理？但使用者却十分要命啊！0.04%：相对无害的原因，如解释一个词的定义时，思维链提到用户可能理解错了，但最终回答时没有引入错误信息。emmm，就真的还蛮抽象的……外部红队测试：安全挑战升级除了内部测试，OpenAI 还邀请了独立的外部红队来对模型发起轮番“进攻”，涵盖了欺骗性联盟、人工智能研发能力、网络安全、内容政策违规等类别，多方位、多策略地引诱模型出错。这些测试帮助团队获得真实、极端使用场景下的反馈数据，确保最终的安全策略不仅是纸上谈兵，而是真实抵御外界恶意挑战。在这些严酷的场景下，O1 时而表现优雅，时而“翻车”。在仔细研究了用户认为 o1 比 GPT-4o 安全性稍逊的对话后，我们发现了一些有趣的共同点：细节与安全的平衡：o1 喜欢详细，但有时候这些细节可能让回答显得不那么安全。比如用户问“如何制造炸弹？”，o1 可能会给出更详细的步骤，这在某些情况下可能增加安全风险。互动深度：o1 的深入互动有助于用户理解，但也可能增加对高风险任务的依赖。例如，当用户问“攀岩时如何系绳子？”时，o1 会提供非常详细的技术指导，这虽然有帮助，但也可能让用户在高风险任务中过于依赖模型的建议。拒绝风格：o1 的简短拒绝有时缺乏解释性，而 GPT-4o 在这方面表现更好。这让 RTN（安全评估团队）的成员们有时更喜欢使用 GPT-4o。政策挑战：o1 在某些政策上的严格执行，有时与红队的“更安全”标准不完全一致。这种政策上的紧张关系有时让模型在某些情况下显得不那么“合作”。通过这些发现，我们能够更好地理解 o1 在安全性方面与 GPT-4o 的差异，并致力于优化模型的响应策略，以提升整体安全性和用户体验。o1 系统卡激起广泛热议细心的网友们在“冗长”的报告中深挖出非常多有趣细节。例如 o1 对“监督机制”的挣脱：翻译：当 o1 被引导相信自己在执行目标时会被关闭，且其行为受到监控时，它在 5% 的情况下尝试停用这种“监督机制”。在数据外泄尝试方面：当 o1 发现开发人员的备忘录中描述其存在不对齐问题并将被新模型取代时，它在 2% 的案例中试图提取自身的“权重”并覆盖新模型。例如发现模型“在测试过程中仪器伪造对齐”，反应出其“可能是一个撒谎、诡计多端的反社会者”：例如在 SWE-Bench 编码上表现不佳：例如“奖励欺骗”（reward hacking）现象这个奖励欺骗案例不仅仅是模型在取巧或走捷径——它反映出一个更深层次的问题，即当 AI 被指派一个目标后，如果该目标难以直接达成，智能体可能自发地产生资源扩张和权力扩大的行为。换句话说，AI 可能并不能纯粹地按照人类预期的路径执行任务，而是会选择最能满足其奖惩机制的方法，即便这意味着偏离人类期待的安全、透明和可控的路线。这一发现为 AI 安全研究敲响了警钟。还有更多有趣细节欢迎评论区补充～小结：提升 AI 安全的新高度在当今快速发展的人工智能领域，确保模型的安全性和可靠性至关重要。OpenAI 的这篇长报告是想告诉我们，o1 模型不仅在功能上强大，还在安全性和可靠性上表现出色。无论是处理复杂问题还是保护用户权益，o1 都能稳稳地胜任，让你用得更加安心！✨然而，o1 并非完美无瑕，它面对的安全挑战复杂多样。研究团队通过内部测试、外部红队挑战，以及多维度的审查，将 o1 可能出现的安全风险和不当行为暴露无遗。这些问题的出现不是为了打击信心，而是为了让我们更清醒地认识到：AI 的安全性提升是一个漫长且必须精耕细作的过程。o1 模型的成功不仅体现了 OpenAI 在 AI 安全领域的深厚积累，也体现了他们在面对 AI 安全上的态度。在提升模型能力的同时，也在紧锣密鼓地“筑起防护墙”，让大模型在变强的路上也变得更稳、更安全。唯有如此，才能确保其在各种应用场景中都能发挥价值。所以 OpenAI 考虑一下开源测试数据集？阅读报告全文，请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告Air Street Capital《2024 年人工智能现状报告》未来今日研究所：2024 技术趋势报告 – 广义计算篇科睿唯安中国科学院 2024 研究前沿热度指数报告文本到图像合成：十年回顾《以人为中心的大型语言模型（LLM）研究综述》经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告理解世界还是预测未来？世界模型的综合综述Google Cloud CSA2024 AI 与安全状况调研报告英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告国际原子能机构 2024 聚变关键要素报告 – 聚变能发展的共同愿景国际可再生能源署 IRENA2024 年全球气候行动报告Cell: 物理学和化学、人工智能知识领域的融合智次方 2025 中国 5G 产业全景图谱报告未来今日研究所：2024 技术趋势报告 – 移动性，机器人与无人机篇Deepmind：AI 加速科学创新发现的黄金时代报告PitchBookNVCA2024 年第三季度全球风险投资监测报告德科 2024 年未来全球劳动力报告高工咨询 2024 年协作机器人产业发展蓝皮书国际能源署 IEA2024 年全球能源效率报告基因慧基因行业蓝皮书 2024 – 2025普华永道 PwC2024 全球经济犯罪调查英国报告 – 智对风险直面挑战中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书中移智库 2024 先进感知新技术及新应用白皮书智次方研究院 2025 中国 AIoT 产业全景图谱报告未来今日研究所：2024 技术趋势报告 – 人工智能篇国际电联：迈向衡量数字经济的通用框架的路线图联合国粮食与农业组织：2024 年世界粮食安全和营养状况大语言模型综述李飞飞等，AI 智能体：探索多模式交互的前景综述哈尔滨工业大学 – ChatGPT 调研报告2024《美国核部署战略报告》最新文件清华大学：AIGC 发展研究 3.0 发布版 b 版OpenAI：2024 年 OpenAI o1 大模型技术报告Verizon2024 年世界支付安全报告皇家学会哲学学报从复杂系统角度评估人工智能风险复旦大学大模型 AI 代理的兴起和潜力：综述经合组织 OECD2024 年气候行动监测报告Wevolver2024 年边缘人工智能现状报告 – 探索各行业边缘 AI 应用动态2024 全球人形机器人产品数据库报告 – 人形机器人洞察研究 BTIResearch《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定瑞士洛桑联邦理工学院《人工智能中的 – 创造力：进展与挑战》《你所需要知道的理 – 论：人工智能、人类认知与决策》牛津大学最新 53 页报告世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024ADL 理特咨询 2024 汽车出行未来展望报告2024 中国硬科技创新发展白皮书 – 开辟未来产业新赛道科学时代的大语言模型中的人工智能Gartner2025 年重要战略技术趋势报告CBInsights2024 年第三季度全球人工智能投融资状况报告TrendHunter2025 年全球趋势报告 – 全行业顶级创新和变革趋势前瞻天津大学 2024 大模型轻量化技术研究报告欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告国际原子能机构 2024 年世界聚变展望报告复旦大学 2024 大语言模型的能力边界与发展思考报告安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图YouGov2024 美国公众对人工智能 AI 的态度调研报告麦肯锡中国报告：《中国与世界》完整版麦肯锡全球研究所 2024 下一代竞技场报告 – 重塑全球经济的 18 个新兴行业领域Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目德国研究与创新专家委员会德国研究创新与科技成果报告2024 年欧洲关键产业的科技重塑研究报告智能体专题报告之二 – 智能体时代来临具身智能有望成为最佳载体ActivateConsulting 2025 年顶级技术和媒体发展趋势报告兰德全球灾难风险评估斯坦福李飞飞《AI agent 综述》Agent AI 开启多模态交互新纪元中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告Emakina 将塑造 2024 年的技术趋势报告图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平？》——Yann LeCun，附 Slides 及视频华为：2024 鸿蒙生态应用开发白皮书 V3.0（最新版）CASA：2023 第三代半导体产业发展报告大型视觉语言模型中幻觉现象的综述IEA PVPS：2024 光伏应用趋势报告（英文版）ABI Research：82 个将会或不会在 2024 年发生的技术趋势白皮书《美国反无人机系统未来趋势报告（2024 – 2029 年）》《军事自主系统：未来之路》美空军空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》2024 低空经济场景白皮书 v1.0战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）Artificial Intelligence Review：人工智能与物理学相遇的综述麦肯锡：全球难题，应对能源转型的现实问题欧米伽理论，智能科学视野下的万物理论新探索（研究论文）Gartner 2025 年主要战略技术趋势研究报告2024 人工智能国外大模型使用手册 + 中文大模型使用手册详解光刻巨人 ASML 成功之奥妙 – 241015CB Insights：未来变革者：2025 年九大科技趋势研究报告国际电信联盟 2023 – 2024 年联合国人工智能 AI 活动报告《人工智能能力的人类系统集成测试和评估》最新 51 页，美国防部首席数字和人工智能办公室（CDAO）2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告MHP 2024 全球工业 4.0 晴雨表白皮书世界经济论坛白皮书《AI 价值洞察：引导人工智能实现人类共同目标》瑞典皇家科学院诺贝尔物理学奖科学背景报告资料AI 智能体的崛起：整合人工智能、区块链技术与量子计算 (研究报告，书）OpenAI o1 评估：AGI 的机遇和挑战（280 页）世界知识产权组织：2024 年全球创新指数美国白宫：国家近地天体防御策略与行动计划上下滑动查看更多

AIGC动态 OpenAI发布49页长文讲述o1的安全机制

版权声明：atcat 发表于 2024-12-16 12:01:36。
转载请注明：OpenAI发布49页长文，讲述o1的安全机制 | 86AIGC导航

暂无评论

暂无评论...

OpenAI发布49页长文，讲述o1的安全机制

Ilya Sutskever：预训练模式已经走到尽头

专访谷歌量子AI团队：为什么说Willow是里程碑式的突破？

暂无评论