3 Matching Annotations
  1. Last 7 days
    1. The headline result is that the best model, Opus 4.8, scores only about 13% on the hardest subset—far below the 50%+ regime common on SWE-Bench-style evals

      大多数人认为AI编程能力已经接近或超越人类水平,但作者指出即使在最先进的模型上,代码质量评估也远低于传统基准测试,暗示编程问题远未解决。这一发现挑战了AI编程能力已成熟的普遍认知。

  2. Apr 2026
    1. On our 93-task coding benchmark, Claude Opus 4.7 lifted resolution by 13% over Opus 4.6, including four tasks neither Opus 4.6 nor Sonnet 4.6 could solve.

      13%的性能提升在AI领域是显著的飞跃,特别是解决了前代模型完全无法处理的任务,这表明AI能力的非线性发展可能已经到来,而非简单的线性进步。

    1. GLM-5V-Turbo 拿了 94.8 分,Claude Opus 4.6 是 77.3。差距不小。

      令人惊讶的是,在将UI设计稿还原成代码的测试中,GLM-5V-Turbo的得分(94.8)显著领先于Claude Opus 4.6(77.3),这表明它在视觉编码领域有着惊人的优势,几乎领先了17个百分点,这种差距在AI模型比较中是非常罕见的。