5 Matching Annotations
  1. Last 7 days
    1. METR pays human programmers a minimum of $50 per hour, so getting a baseline for a single 160-hour task would cost at least $8,000.

      一道测试题的人类基准成本高达 8000 美元——这个数字揭示了 AI 评测的一个被严重低估的物理限制:测量 AI 能力需要大量人类劳动,而随着 AI 能力向「月级任务」延伸,建立可靠基准的成本将呈超线性增长。更根本的问题是:你很难让一个有能力的程序员花数周时间做一个「测试任务」,即便报酬丰厚。人类评测员的可获得性,将成为 AI 能力评估的真正天花板。

    1. it contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task.

      大多数人认为AI评估可以通过相对简单的自动化流程完成。然而,作者提出的评估基准需要每个任务超过10小时的人工标注和2000多个检查点,这暗示了真正评估AI代理能力的复杂性和成本远超行业普遍认知。这一观点挑战了AI评估领域的效率优先思维,强调了高质量评估需要大量人工投入的现实。

  2. Oct 2021
  3. May 2021
  4. Aug 2020
    1. Sun, W., McCroskery, S., Liu, W.-C., Leist, S. R., Liu, Y., Albrecht, R. A., Slamanig, S., Oliva, J., Amanat, F., Schäfer, A., Dinnon, K. H., Innis, B. L., García-Sastre, A., Krammer, F., Baric, R. S., & Palese, P. (2020). A Newcastle disease virus (NDV) expressing membrane-anchored spike as a cost-effective inactivated SARS-CoV-2 vaccine. BioRxiv, 2020.07.30.229120. https://doi.org/10.1101/2020.07.30.229120