1 Matching Annotations
  1. Last 7 days
    1. Our human task duration estimates likely overestimate how long a human expert takes to complete these tasks, as the humans (and AI agents!) have much less context for the task than professionals doing equivalent work in their day-to-day job.

      METR 主动承认其人类基准时间可能被高估——因为参与实验的人类和 AI 一样,都是低上下文的「新手」状态,而非熟悉项目的专业人员。这意味着「2 小时时间地平线」所对应的人类能力,更接近一个没有背景知识的外包工人,而非一个有经验的全职工程师。AI 与「有上下文的专业人员」之间的真实差距,比时间地平线数字显示的要大得多。