2 Matching Annotations
  1. Last 7 days
    1. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months

      任务时间跨度的倍增曲线在加速:从每7个月翻倍压缩到每4个月翻倍。具体锚点:2024年3月Claude Opus 3能完成4分钟的任务,一年后Sonnet 3.7完成90分钟任务,再一年后Opus 4.6完成12小时任务。按这个速率外推:2027年可能达到几周级别的任务自主完成。这不是某个单一benchmark的进步,而是跨越多个维度的系统性能力跃迁——每一次时间跨度的翻倍背后,都意味着模型能在更长的时间内维持连贯的目标追踪和自我纠错。

    2. The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months

      任务时间跨度的倍增曲线在加速:从每7个月翻倍压缩到每4个月翻倍。具体锚点:2024年3月Claude Opus 3能完成4分钟的任务,一年后Sonnet 3.7完成90分钟任务,再一年后Opus 4.6完成12小时任务。按这个速率外推:2027年可能达到几周级别的任务自主完成。这不是某个单一benchmark的进步,而是跨越多个维度的系统性能力跃迁——每一次时间跨度的翻倍背后,都意味着模型能在更长的时间内维持连贯的目标追踪和自我纠错。