3 Matching Annotations
  1. Last 7 days
    1. the agents recovered 97% over 800 cumulative hours and used roughly $18,000 in compute

      AI安全研究的具体对比:2名人类研究员用约一周时间恢复了23%的性能差距;AI agent用800累计小时+18,000美元算力恢复了97%。18,000美元的算力成本在AI公司是完全可承受的,而「2名顶尖研究员工作一周」的人力成本远不止于此。同等预算下,AI的输出已经碾压人类。「人类仍然选择了问题和评分标准」——这个保留条款现在是唯一剩余的人类不可替代性,而这篇文章本身就是在论证这个条款也在缩窄。

    2. the agents recovered 97% over 800 cumulative hours and used roughly $18,000 in compute

      AI安全研究的具体对比:2名人类研究员用约一周时间恢复了23%的性能差距;AI agent用800累计小时+18,000美元算力恢复了97%。注意这里的隐含逻辑:18,000美元的算力成本在AI公司是完全可承受的,而「2名顶尖研究员工作一周」的人力成本远不止于此。同等预算下,AI的输出已经碾压人类。「人类仍然选择了问题和评分标准」——这个保留条款现在是唯一剩余的人类不可替代性,而这篇文章本身就是在论证这个条款也在缩窄。

  2. Apr 2026
    1. From anthropic.com

      令人惊讶的是,这项研究由Anthropic Fellows团队完成,表明该公司正在积极投资前沿AI研究。这种对模型比较技术的重视反映了Anthropic对AI安全和透明度的承诺,同时也暗示了AI行业正在从单纯追求模型性能转向更精细的行为特征分析。