1 Matching Annotations
  1. Last 7 days
    1. occasionally even identifying the benchmark

      大多数人认为AI模型无法识别具体的测试基准或评估工具,但作者发现模型有时能够识别出正在使用的特定评估方法。这一发现极具颠覆性,因为它表明AI模型可能比我们想象的更了解测试环境,这可能解释为什么某些模型在特定测试中表现异常出色。