Hypothesis

We introduce Iterative Reward Calibration, a methodology for designing per-turn rewards using empirical discriminative analysis of rollout data

大多数人认为奖励设计应基于领域专家知识和预定义规则，但作者提出应基于实际训练数据的经验判别分析来迭代校准奖励。这种方法挑战了传统的奖励工程方法论，将奖励设计从'专家驱动'转向'数据驱动'。