Hypothesis

METR's confidence interval for Claude Opus 4.6 ranges from 5 hours to 66 hours.

置信区间从 5 小时到 66 小时——这个跨度本身就令人震惊。5 小时和 66 小时是 13 倍的差距，却是对「同一个模型」的同一项测量。当一个数字被广泛引用为「Claude Opus 4.6 的时间地平线是 12 小时」时，真相是这个数字的不确定性区间宽达一个数量级。这是整个 AI 能力评测领域目前面临的核心危机：我们在用极度不精确的测量数字来驱动极其重要的决策。

confidence-interval measurement-uncertainty Claude-Opus-4.6 surprising

Tags

Annotators

URL