3 Matching Annotations
  1. Last 7 days
    1. The capability rankings reshuffled completely across tasks. There is no stable best model across cybersecurity tasks. The capability frontier is jagged.

      这一发现揭示了AI安全能力的'锯齿状前沿'现象,不同模型在不同安全任务上的表现差异巨大。这表明不存在'一刀切'的最佳安全模型,而是需要根据具体任务选择合适的模型,这对AI安全系统的设计有重要启示。

    2. Eight out of eight models detected Mythos's flagship FreeBSD exploit, including one with only 3.6 billion active parameters costing $0.11 per million tokens.

      这是一个令人惊讶的发现,表明即使是小型、廉价的模型也能实现与昂贵的专有模型相当的安全漏洞检测能力。这挑战了AI安全领域需要最前沿模型的假设,暗示了经济高效的AI安全解决方案的可能性。

    1. gpt-oss-20B (high): 0.7%

      gpt-oss-20B 的成绩是 0.7%——在 452 个专业任务中,只有不到 4 个通过了评测。这个数字与顶级模型的 33.3% 之间,存在近 50 倍的差距。这说明专业服务 Agent 能力不是「渐进改善」,而是存在明确的「能力阶梯」——低于某个规模的模型,在这类任务上几乎完全失效。这对企业 AI 选型的启示:在专业服务场景,「够用的小模型」可能根本不存在,只有「能用的大模型」和「完全不能用的模型」两种。