Some recent models that don't currently have time horizons: Gemini 3.1 Pro, GPT-5.2-Codex, Grok 4.1
METR 公开列出了「尚未完成评测」的前沿模型,这个透明度本身就令人惊讶。更令人注意的是列表的内容:Gemini 3.1 Pro 和 GPT-5.2-Codex 都榜上有名,说明 METR 的评测能力跟不上模型发布速度。在 AI 能力快速迭代的背景下,「评测滞后」已成为 AI 安全领域的系统性风险——我们对最新最强模型的能力边界,永远处于半盲状态。