Hypothesis

existing TTS methods often discard the exploration trajectory and treat the final answer as the only useful outcome

在测试时扩展(Test-time scaling)领域，主流观点认为只有最终结果才是有价值的，探索过程只是达到结果的手段。但作者认为被忽视的探索轨迹实际上是一个丰富的数据源，可以加速智能体从经验中学习的能力。这一观点挑战了传统TTS方法的价值评估标准。