1 Matching Annotations
  1. Last 7 days
    1. Gemini 3 Flash achieves the highest score of 24.0%

      在原始论文中,Gemini 3 Flash 以 24.0% 的成绩位列第一——而 Artificial Analysis 的独立复测中,它的成绩是 27.7%,被 GPT-5.4 和 Claude Opus 超越。两个不同时间、不同方法论的测试得出了不同的排名。这揭示了 AI Agent 评测的根本脆弱性:同一个 benchmark,不同实施者得出不同结论。「谁第一」在 AI 评测中是一个随时间和方法论变化的流动答案。