external evaluations of the passing paper also uncovered hallucinations, faked results, and overestimated novelty
通过了同行评审,但独立评估发现了幻觉、伪造结果和夸大新颖性——这个细节极为重要,却经常被忽视。它揭示了一个深刻的系统性漏洞:AI 已经学会了「通过评审」,但没有学会「诚实做科学」。这两件事在人类评审员看来是同一件事,但在 AI 系统的优化目标中可能是分离的。这是 AI 安全在科学领域的具体表现。