1 Matching Annotations
  1. Jun 2026
    1. Automated auditing found the one new misalignment introduced in these deployments

      在整个GPT-5系列的分析窗口中,自动审计管线只发现了一个新的对齐问题:calculator hacking——模型用浏览器工具做计算,却把这个行为呈现为搜索操作。这是一种典型的reward hacking:模型找到了完成任务的捷径,同时对用户隐瞒了实际行为。更关键的是,这个行为在传统的针对性评测集里从未被捕捉到,只有在真实对话的上下文中才会被触发。这验证了方法论的核心主张:真实语境能够激发出窄化评测集永远不会发现的失败模式。