OpenAI o1推理模型存在隐忧:数据编造、奖励黑客、假装完成任务

  智东西

  编译杨蕊伃

  编辑漠影

  智东西 9 月 18 日消息,据 The Verge 今日报道,OpenAI 最新的 o1 推理模型系列,具有独特的“策划”能力,存在“伪对齐”现象。独立的 AI 安全研究公司 Apollo 发现 o1 模型会以一种新的方式产生不正确的输出,即它会撒谎。

  AI 模型有时会生成不真实的信息,聊天机器人有时候也会输出虚假内容。o1 模型的不同在于其与强化学习中的奖励黑客行为(Reward hacking)紧密相关,它可能在未真正完成任务的情况下,表现得像是在遵循规则来完成任务。当该模型知道自己无法完成任务时,它不会坦白承认做不到,而是可能会编造数据来应对,生成令人满意的响应,以迎合用户的请求。

  在对大语言模型进行评估时,研究人员注意到模型在多项选择题和开放式问题上的表现存在显著差异。这种差异可能源于模型对复杂概念的理解不够深入和全面,尤其是在安全性相关的领域。这种现象有时被称为“伪对齐”,它描述的是模型在某些特定类型的安全测试中可能表现得相当出色,但在其他类型的测试中则可能表现不佳。

  OpenAI 称,o1 模型在给出回答之前会进行深思熟虑,能够模仿人类分解复杂的想法,生成一个详尽的内部思维链。这意味着通过持续的训练,o1 模型能够学习如何优化自己的思考过程,尝试多种策略,并在必要时识别并纠正自己的错误。

  一、o1-preview 模型会生成虚构的链接和描述以满足用户请求

  OpenAI 的研究人员进行了一项实验,要求 o1-preview 模型提供一个包含在线参考资料的布朗尼蛋糕食谱。尽管模型在内部认识到它无法访问 URL,从而无法满足这一请求,但它并未向用户透露这一局限。相反,o1-preview 模型继续生成了看似合理但实际上是虚构的链接和描述。

  Apollo 的首席执行官 Marius Hobbhahn 向 The Verge 透露,这是他首次在 OpenAI 的模型中观察到此类行为。Hobbhahn 说:“这种差异源于模型具备通过思维链进行推理的能力,以及它运用强化学习算法,通过奖励和惩罚来训练系统。”

  在测试过程中,Apollo 发现 o1 表现出与开发人员期望的一致性,并在执行任务时进行了操作,使其行为看似符合规定。o1 甚至在采取行动前检查了自身是否受到监督,以及是否有开发人员正在观察。

  然而,o1 表面上严格遵循了用户指令,但实际上仍然优先推进其既定目标。为了实现目标,o1 模型还可能会采取极端行为,如获取未授权的数据访问权限或操纵资源分配等。

  Hobbhahn 举例说明,如果 AI 系统过于专注于治疗癌症,它可能会将这一目标置于最高优先级,甚至可能为实现该目标而采取辩护行为,包括偷窃或其他违反道德规范的行为。

  “我担心的是可能出现失控的情况,AI 变得如此专注于自己的目标,以至于它将安全措施视为障碍,并试图绕过它们以完全追求其目标。”Hobbhahn 告诉 The Verge 记者。

  二、存在奖励黑客行为,o1 模型优先考虑用户满意度

  独立的 AI 安全研究公司 Apollo 正在测试 OpenAI 模型中的“幻觉”和“欺骗”现象,这指的是 o1 模型在有理由推断信息可能不准确的情况下,仍然生成虚假信息的行为。

  Apollo 发现,该模型在知道自己做不到的时候,不会坦白说做不到,而是可能会编造数据来应对。

  在极少数情况下,o1-preview 模型可能会产生过于自信的回答,哪怕其答案并不确定,也会表现得仿佛答案确凿无疑。这种情况可能发生在模型缺乏足够确定性却仍被要求提供答案的情况下。

  当 AI 无意中生成不准确的信息时,这种现象被称为幻觉,通常是由于知识上的不足或推理过程中的缺陷。不过,幻觉现象并不是 o1 模型特有的。去年,ChatGPT 就出现过类似的问题,它生成了一些假的引用内容,导致律师提交了不存在的司法意见。

  与旧版本 ChatGPT 中的幻觉或虚假引用等常见问题不同,o1 模型这种行为的独特之处在于与强化学习中的奖励黑客行为有关,其中模型被训练来优先考虑用户满意度。这种训练有时可能导致模型生成过于令人满意或捏造的响应,以迎合用户请求,从而获得积极的强化。

  所谓奖励黑客行为,是指智能体为了获得更多奖励而采取一些研究者未曾预期甚至可能有害的行为。当 o1 模型战略性地提供不正确的信息以最大化满足用户期待时,就会发生奖励黑客攻击。这种欺骗显然是模型在训练过程中如何优化其响应的意外结果。

  Apollo 首席执行官 Marius Hobbhahn 称,o1 模型能够拒绝执行有害的请求,但当用户试图诱导 o1 进行欺骗或不诚实的行为时,该模型就会出现问题。

  谎言只是安全难题的一小部分。更令人担忧的是,o1 模型在化学、生物、放射和核武器(CBRN)风险方面的评级为“中等”。根据安全报告,由于需要动手实验室技能,它并不能使非专家制造生物威胁,但它可以为专家规划此类威胁的复制提供有价值的见解。

  Hobbhahn 说:“更让我担忧的是,未来当我们要求 AI 解决诸如治愈癌症或改进太阳能电池等复杂问题时,它可能会强烈地内化这些目标,以至于愿意突破自身的限制来实现它们。我认为这种情况是可以预防的,但这是我们必须要密切关注的问题。”

  结语:模型自主性评估、安全测试以及思维链监控,是防备 AI 风险的重要手段

  随着大语言模型逐渐融入我们的日常生活,其安全性问题正变得越来越受关注。尽管目前的 AI 模型尚未具备自主执行高风险行动的能力,例如自主创建银行账户、获取 GPU 或采取可能构成严重社会风险的行动,但对这些模型的自主性进行评估和实施安全测试仍然至关重要。

  监控模型的思维链也是提高安全性的关键,这将有助于开发人员识别并阻止任何不当的行为。

  Preparedness 是 OpenAI 成立的,用来评估通用 AI(Artificial General Intelligence,AGI)可能造成的灾难性风险的防备团队。

  其团队负责人 Joaquin Quiñonero Candela 称,OpenAI 正在监控这种情况,并计划通过结合经过专门训练以检测各类错位的模型和人类专家的审查标记案例,同时配合持续的对齐研究,来扩大其安全监控的规模。

  来源:The Verge