Hypothesis

external evaluations of the passing paper also uncovered hallucinations, faked results, and overestimated novelty

通过了同行评审，但独立评估发现了幻觉、伪造结果和夸大新颖性——这个细节极为重要，却经常被忽视。它揭示了一个深刻的系统性漏洞：AI 已经学会了「通过评审」，但没有学会「诚实做科学」。这两件事在人类评审员看来是同一件事，但在 AI 系统的优化目标中可能是分离的。这是 AI 安全在科学领域的具体表现。