We achieve an 81% lower false positive rate compared to SWE-Bench Pro.
81%的假阳性降低率是一个显著的量化改进,表明FrontierCode在评估代码质量方面比现有基准更准确。这个数据点很有说服力,因为它与现有基准直接比较,显示了评估方法的优越性。
We achieve an 81% lower false positive rate compared to SWE-Bench Pro.
81%的假阳性降低率是一个显著的量化改进,表明FrontierCode在评估代码质量方面比现有基准更准确。这个数据点很有说服力,因为它与现有基准直接比较,显示了评估方法的优越性。
Research result of 83 and a production model, third-party verified score of 65.9, SubQ 1M-Preview compares favorably with other SOTA models like Claude Opus 4.7 (32.2), GPT 5.5 (74), and Gemini 3.1 Pro (26.3).
在MRCR v2测试中,SubQ 1M-Preview的生产模型得分为65.9,显著优于Claude Opus 4.7(32.2)、GPT 5.5(74)和Gemini 3.1 Pro(26.3)。这个数据点有力证明了SubQ在多信息检索和推理方面的优越性,接近研究模型的83分。
DeepSeek-V4-Pro-Max beats GPT-5.2 and Gemini 3.0-Pro on standard reasoning benchmarks and lands just behind GPT-5.4 and Gemini 3.1-Pro
DeepSeek V4-Pro-Max在标准推理基准测试中超越了GPT-5.2和Gemini 3.0-Pro,这表明了开源模型在性能上的巨大提升。
GPQAD | 94.4 | 90.9 | 92.7 | 92.4 | **95.1** | LCBv6 | 90.3 | 92.1 | 92.4 | 90.4 | **93.2** | SWEPro | 48.4 | 51.2 | _53.4_ | 51.3 | **54.2**
性能对比表格显示,Sakana Fugu Ultra在三个基准测试中均优于竞争对手:GPQAD上达95.1%(超越Gemini 3.1的94.4%),LCBv6上达93.2%(超越GPT 5.4的92.1%),SWEPro上达54.2%(超越Opus 4.6的53.4%)。这些数据表明其多模型协调策略确实带来了性能提升,特别是在科学推理任务上优势明显。