Hypothesis

We evaluate the physical autoresearch capability of three coding agents: Codex with GPT-5.5, Claude Code with Opus 4.7, and Kimi Code with Kimi K2.6

这个三方对比是论文里最有竞争情报价值的部分。值得注意的是评估框架：不是问哪个模型写的代码更好，而是问哪个编程智能体在有限时间内能把机器人策略的成功率提升得更高——这是一个端到端的、以物理世界结果为标准的评估。这类基准比纯代码生成基准更接近真实价值，也更难被单纯的参数规模优势所碾压。