The length of tasks that they can reliably complete on their own has been doubling roughly every four months, up from an earlier trend of doubling every seven months
任务时间跨度的倍增曲线在加速:从每7个月翻倍压缩到每4个月翻倍。具体锚点:2024年3月Claude Opus 3能完成4分钟的任务,一年后Sonnet 3.7完成90分钟任务,再一年后Opus 4.6完成12小时任务。按这个速率外推:2027年可能达到几周级别的任务自主完成。这不是某个单一benchmark的进步,而是跨越多个维度的系统性能力跃迁——每一次时间跨度的翻倍背后,都意味着模型能在更长的时间内维持连贯的目标追踪和自我纠错。