Because these benchmarks are human-authored, they can only test for risks we have already conceptualized and learned to measure.
这句话揭示了当前 AI 安全评测体系的致命盲区:所有 benchmark 都是人类提前想好的问题,而真正危险的「未知的未知」(unknown unknowns)根本无法被预设题目捕捉。这意味着我们现有的模型安全认证,本质上是一场对已知风险的自我测试。