On GDPval-AA, M2.7 achieves an ELO score of 1495, the highest among open-source models.
令人惊讶的是:MiniMax M2.7在GDPval-AA基准测试中获得了1495的ELO分数,成为所有开源模型中的最高分。这一分数不仅展示了模型在专业办公领域的卓越能力,还暗示了开源AI模型已经达到了接近或超越某些专有模型的专业水平,打破了开源模型性能不如闭源模型的刻板印象。
On GDPval-AA, M2.7 achieves an ELO score of 1495, the highest among open-source models.
令人惊讶的是:MiniMax M2.7在GDPval-AA基准测试中获得了1495的ELO分数,成为所有开源模型中的最高分。这一分数不仅展示了模型在专业办公领域的卓越能力,还暗示了开源AI模型已经达到了接近或超越某些专有模型的专业水平,打破了开源模型性能不如闭源模型的刻板印象。
The model reportedly scored 93.9% on SWE-bench Verified and 77.8% on SWE-bench Pro, but its strongest signal came from real-world results, including uncovering a 27-year-old flaw in OpenBSD, a 16-year-old vulnerability in FFmpeg, and autonomously chaining Linux kernel exploits without human input.
这些惊人的安全漏洞发现能力表明AI已经超越了传统安全工具,能够自主发现几十年未被发现的漏洞。特别是能够自主链接Linux内核漏洞的能力,展示了AI在网络安全领域的革命性潜力,这可能彻底改变安全研究和漏洞修复的方式。
current systems remain highly vulnerable
尽管AI安全研究取得了显著进展,但作者通过AgentHazard基准测试表明,当前最先进的计算机使用代理系统仍然极其脆弱,这挑战了学术界和工业界对AI安全水平已经足够高的普遍认知。