When we applied the top AAR-discovered ideas to a production-scale w2s run, we observed only +0.5pt improvement in a noisy floor, suspected to be an elicitation failure
论文里最诚实的一段。实验室环境的PGR=0.97迁移到生产规模后几乎消失,作者诊断为引发失败——能力在那里,但我们不知道如何正确唤起它。这个失败模式极具代表性:小规模验证和大规模部署之间存在我们目前不完全理解的鸿沟。在对齐研究语境里这尤其危险:一个技术在对照实验中有效,并不保证在实际部署中有效。