3 Matching Annotations
  1. Last 7 days
    1. The same model can score above 90% on lower-demand tests and below 15% on more demanding ones, reflecting differences in task requirements rather than a change in capability.

      这一发现揭示了AI评估中的一个令人惊讶的现象:模型性能的巨大波动可能主要源于任务难度差异,而非模型本身能力的变化。这挑战了我们对AI'能力'的简单理解,表明AI系统可能在特定能力上存在明显的'阈值效应',在达到某个难度水平后性能急剧下降。

    2. The same model can score above 90% on lower-demand tests and below 15% on more demanding ones, reflecting differences in task requirements rather than a change in capability.

      令人惊讶的是:同一个AI模型在低需求测试中可能获得90%以上的分数,而在高需求测试中却可能低于15%,这反映了任务需求的不同而非模型能力的改变。这一发现挑战了人们对AI能力稳定性的普遍认知,揭示了任务难度对AI表现的巨大影响。

  2. Aug 2020