Hypothesis

we may see a growing divergence between the capabilities we can measure and the capabilities we actually care about.

「可测量的能力」与「真正关心的能力」之间的分歧正在扩大——这是整篇文章最深刻的洞见。所有当前 benchmark 都偏向「干净、自包含、可自动评分」的任务，而真实工作是「混乱、跨系统、需人类判断」的。随着 AI 向长任务延伸，这个测量-现实之间的鸿沟不会缩小，只会加速扩大。这意味着未来关于「AI 能否替代某类工作」的争论，将越来越难以用数据解决——因为数据本身无法捕捉真实工作的本质。

measurement-reality-gap benchmark-limitation complex-tasks key-insight

Tags

Annotators

URL