1 Matching Annotations
  1. Last 7 days
    1. DRQ performs surprisingly well in Core War, suggesting that even minimal self-play loops can reveal complex and robust strategies

      「最简自博弈循环」效果出乎意料好——这与 AlphaGo/AlphaZero 的结论一致,但这里的环境更开放(Turing 完备)。DRQ 的 minimal 性是刻意设计的:不引入 fancy 的适应度函数或群体演化,只是「击败累积对手列表」。结论是:对抗压力本身就是足够强的学习信号,无需精心设计奖励函数。这对 RL 和自博弈训练有方法论意义。