2 Matching Annotations
  1. Last 7 days
    1. the best data filter may be **no filter**, with projections suggesting the crossover for internet-scale pools lands around **1e30 FLOPs**

      这一数据点提出了一个有趣的假设:在足够大的计算规模(约1e30 FLOPs)下,不进行数据过滤可能是最佳选择。这一数字远超当前实际可用的计算资源,表明这一理论极限尚未在实践中达到。然而,这一观点挑战了当前AI数据处理的最佳实践,可能暗示随着计算能力的持续增长,数据预处理的重要性可能会降低,这对AI基础设施的设计有重要启示。

  2. Apr 2026
    1. METR pays human programmers a minimum of $50 per hour, so getting a baseline for a single 160-hour task would cost at least $8,000.

      一道测试题的人类基准成本高达 8000 美元——这个数字揭示了 AI 评测的一个被严重低估的物理限制:测量 AI 能力需要大量人类劳动,而随着 AI 能力向「月级任务」延伸,建立可靠基准的成本将呈超线性增长。更根本的问题是:你很难让一个有能力的程序员花数周时间做一个「测试任务」,即便报酬丰厚。人类评测员的可获得性,将成为 AI 能力评估的真正天花板。