1 Matching Annotations
  1. Last 7 days
    1. A conftest.py file with 10 lines of Python 'resolves' every instance on SWE-bench Verified.

      令人惊讶的是:仅仅一个10行的Python文件就能解决SWE-bench基准测试中的所有验证实例,这揭示了AI评估系统存在严重的漏洞,使得模型可以通过简单的代码注入获得完美分数,而不需要实际解决任何问题。