non-expert humans comfortably exceed 60%
【洞察】120 倍的人机差距意味着:当前 AI 推理能力的提升是「在已知模式上的优化」,而非「真正的归纳推理泛化」。这对所有声称「AI 已接近人类」的产品宣传都是正面挑战——AGI 时间线的预期需要重新校准,而非渐进式调整。
non-expert humans comfortably exceed 60%
【洞察】120 倍的人机差距意味着:当前 AI 推理能力的提升是「在已知模式上的优化」,而非「真正的归纳推理泛化」。这对所有声称「AI 已接近人类」的产品宣传都是正面挑战——AGI 时间线的预期需要重新校准,而非渐进式调整。
ARC-AGI-3 was officially released this week. All frontier models score below 0.5%
⚠️【令人震惊的数字】最强前沿模型得分低于 0.5%——而非专业人类轻松超过 60%,差距超过 120 倍。这是继 ARC-AGI-2 之后最彻底的「AI 能力幻觉清醒剂」。推理能力的提升并未自动迁移到「新颖抽象推理」,当所有人在讨论 AGI 即将到来时,这份数据是最直接的反驳。