Hypothesis

When we applied the top AAR-discovered ideas to a production-scale w2s run, we observed only +0.5pt improvement in a noisy floor, suspected to be an elicitation failure

论文里最诚实的一段。实验室环境的PGR=0.97迁移到生产规模后几乎消失，作者诊断为引发失败——能力在那里，但我们不知道如何正确唤起它。这个失败模式极具代表性：小规模验证和大规模部署之间存在我们目前不完全理解的鸿沟。在对齐研究语境里这尤其危险：一个技术在对照实验中有效，并不保证在实际部署中有效。

生产转化失败引发失败规模泛化

Tags

Annotators

URL