produces a lineage of warriors, each adapted to a changing environment defined by all of its predecessors
DRQ 的环境定义是动态的:第 N 代战士的「测试集」就是它的所有前辈。这解决了传统 benchmark 的一个根本问题——对抗进化自动生成永不饱和的 curriculum。对应到 LLM 训练:如果模型的评估对手也在不断进化,就不存在「刷榜」问题。这是一种自我更新的能力测量框架。
produces a lineage of warriors, each adapted to a changing environment defined by all of its predecessors
DRQ 的环境定义是动态的:第 N 代战士的「测试集」就是它的所有前辈。这解决了传统 benchmark 的一个根本问题——对抗进化自动生成永不饱和的 curriculum。对应到 LLM 训练:如果模型的评估对手也在不断进化,就不存在「刷榜」问题。这是一种自我更新的能力测量框架。