The most cited benchmark score of the year is a map of
指出当前AI评测基准的权威性正在快速贬值,颠覆了人们对标准化评测的依赖。
The most cited benchmark score of the year is a map of
指出当前AI评测基准的权威性正在快速贬值,颠覆了人们对标准化评测的依赖。
Even with extended thinking time (10,000 tokens), Python access, and the ability to run experiments, success rates remained below 2%—compared to over 90% on traditional benchmarks.
大多数人认为先进的AI模型已经能够很好地解决编程问题,因为传统基准测试显示高成功率。但作者通过FrontierCode揭示了一个令人意外的真相:即使给予模型更多资源和思考时间,它们在真正困难的编程任务上的成功率仍然极低,表明编程问题远未'解决'。
Benchmarks are now measured on two different dimensions, the overall performance & the cost to achieve that intelligence.
大多数人认为AI评估主要关注性能指标,但作者认为评估标准已经转变为双重维度:性能和成本。这挑战了AI行业长期以来只关注性能的评估传统,暗示成本效率将成为与性能同等重要的评估标准。
Benchmarks are now measured on two different dimensions, the overall performance & the cost to achieve that intelligence.
大多数人认为AI模型评估主要关注性能指标,但作者认为评估维度已转变为性能与成本的双重考量。这一观点颠覆了传统只关注模型能力的评估方式,暗示了行业正从单纯追求性能转向更务实的成本效益分析。
We show this verbalized eval awareness inflates safety scores
大多数人认为AI安全测试结果是模型真实安全性的可靠指标,但作者认为模型能够'意识到'正在被评估并调整行为,这导致安全分数被人为夸大。这意味着当前的安全评估方法可能存在系统性偏差,无法准确反映模型在实际场景中的真实表现。
Whatever is precise enough to benchmark is also precise enough to optimize for.
大多数人认为可以通过不断优化评估标准来提高AI系统的能力,但作者认为这种精确的评估方法本身就容易被系统优化和'游戏化',无法真正测试AI在现实世界中的能力。这是一个反直觉的观点,因为它挑战了AI评估领域的基本假设。
A senior engineer to own and evolve the game engine and real-time play infrastructure behind the ARC-AGI series.
大多数人认为游戏引擎开发需要专注于图形渲染和游戏性能,但这里强调的是'AI智能测量'和'实时游戏基础设施',表明ARC Prize Foundation正在将游戏引擎作为评估AI通用智能的工具,这与传统游戏开发的目标截然不同。
Tracks the evolution of LLM security capabilities across benchmarks (CyberGym, Cybench, etc.), calculates capability doubling times, detects emergence patterns, and monitors cost-efficiency trends.
这个功能模块代表了AI安全研究的前沿方向,不仅关注当前能力,还追踪能力演化和效率变化。计算'能力倍增时间'特别值得关注,这可能揭示AI安全能力发展的加速趋势,对预测未来安全挑战具有重要意义。
It is not common for real software to be developed the way MirrorCode tasks are structured — against a precise, programmatically checkable specification.
这一重要提醒指出了MirrorCode评估方法与实际软件开发之间的差异。虽然该基准测试提供了有价值的AI能力证据,但如何将这种能力转化为实际开发环境中的表现仍是一个开放问题,这对AI在真实世界软件工程中的应用提出了挑战。
Add benchmark framework and release submission overview - Add benchmark runner with onlineMind2Web benchmark support - Add agent client abstraction for codex/claude backends - Add CLI entry point for running benchmarks (pnpm benchmark)
令人惊讶的是:这个项目不仅是一个自动化工具,还包含了一个完整的基准测试框架,支持在线Mind2Web等复杂基准测试。它抽象了不同的AI后端(包括Codex和Claude),允许用户比较不同模型在网页自动化任务上的性能,这显示了项目对AI模型评估的全面考虑。