The headline result is that the best model, Opus 4.8, scores only about 13% on the hardest subset—far below the 50%+ regime common on SWE-Bench-style evals
大多数人认为AI编程能力已经接近或超越人类水平,但作者指出即使在最先进的模型上,代码质量评估也远低于传统基准测试,暗示编程问题远未解决。这一发现挑战了AI编程能力已成熟的普遍认知。
The headline result is that the best model, Opus 4.8, scores only about 13% on the hardest subset—far below the 50%+ regime common on SWE-Bench-style evals
大多数人认为AI编程能力已经接近或超越人类水平,但作者指出即使在最先进的模型上,代码质量评估也远低于传统基准测试,暗示编程问题远未解决。这一发现挑战了AI编程能力已成熟的普遍认知。
On our 93-task coding benchmark, Claude Opus 4.7 lifted resolution by 13% over Opus 4.6, including four tasks neither Opus 4.6 nor Sonnet 4.6 could solve.
13%的性能提升在AI领域是显著的飞跃,特别是解决了前代模型完全无法处理的任务,这表明AI能力的非线性发展可能已经到来,而非简单的线性进步。
GLM-5V-Turbo 拿了 94.8 分,Claude Opus 4.6 是 77.3。差距不小。
令人惊讶的是,在将UI设计稿还原成代码的测试中,GLM-5V-Turbo的得分(94.8)显著领先于Claude Opus 4.6(77.3),这表明它在视觉编码领域有着惊人的优势,几乎领先了17个百分点,这种差距在AI模型比较中是非常罕见的。