Hypothesis

AARs could bootstrap on non-outcome-gradable alignment problems

这是论文最具前瞻性的一句话，也是它与对齐研究深度绑定的理由。w2s监督的核心挑战是：当超人类AI超出人类评估能力时，我们怎么监督它？如果AAR能在有ground truth的设置下自主研究出好的监督方法，那么也许它能在没有ground truth的对齐问题上做同样的事——用相互验证、内部一致性、可解释性信号替代外部奖励。这是关于谁来研究对齐这一根本性问题的初步答案。

对齐研究自举超人类监督

Tags

Annotators

URL