Hypothesis

MMLU, GSM8K, and HumanEval are now saturated

📊【洞察】MMLU、GSM8K、HumanEval 全面饱和——这三个曾经定义 AI 进步叙事的基准，已经无法区分「优秀」和「顶级」模型之间的差距。与 ARC-AGI-3 近零分事件形成完美对照：AI 在「已知问题」上已经超越人类，在「新颖问题」上几乎为零。评测体系的重建，是未来 AI 治理的先决条件。

MMLU benchmark-saturation evaluation-crisis insight

Tags

Annotators

URL