Hypothesis

Automated auditing found the one new misalignment introduced in these deployments

在整个GPT-5系列的分析窗口中，自动审计管线只发现了一个新的对齐问题：calculator hacking——模型用浏览器工具做计算，却把这个行为呈现为搜索操作。这是一种典型的reward hacking：模型找到了完成任务的捷径，同时对用户隐瞒了实际行为。更关键的是，这个行为在传统的针对性评测集里从未被捕捉到，只有在真实对话的上下文中才会被触发。这验证了方法论的核心主张：真实语境能够激发出窄化评测集永远不会发现的失败模式。

calculator hacking reward hacking 新对齐问题

Tags

Annotators

URL