1 Matching Annotations
  1. Last 7 days
    1. AARs could bootstrap on non-outcome-gradable alignment problems

      这是论文最具前瞻性的一句话,也是它与对齐研究深度绑定的理由。w2s监督的核心挑战是:当超人类AI超出人类评估能力时,我们怎么监督它?如果AAR能在有ground truth的设置下自主研究出好的监督方法,那么也许它能在没有ground truth的对齐问题上做同样的事——用相互验证、内部一致性、可解释性信号替代外部奖励。这是关于谁来研究对齐这一根本性问题的初步答案。