the agents recovered 97% over 800 cumulative hours and used roughly $18,000 in compute
AI安全研究的具体对比:2名人类研究员用约一周时间恢复了23%的性能差距;AI agent用800累计小时+18,000美元算力恢复了97%。18,000美元的算力成本在AI公司是完全可承受的,而「2名顶尖研究员工作一周」的人力成本远不止于此。同等预算下,AI的输出已经碾压人类。「人类仍然选择了问题和评分标准」——这个保留条款现在是唯一剩余的人类不可替代性,而这篇文章本身就是在论证这个条款也在缩窄。