It demonstrated incredible generalization. Without any retraining, TRINITY transferred zero-shot to four unseen tasks
作者强调其系统无需重新训练即可零样本泛化到新任务,这与当前AI模型通常需要针对特定任务进行微调的主流实践形成鲜明对比,提出了一个反直觉的泛化能力观点。
It demonstrated incredible generalization. Without any retraining, TRINITY transferred zero-shot to four unseen tasks
作者强调其系统无需重新训练即可零样本泛化到新任务,这与当前AI模型通常需要针对特定任务进行微调的主流实践形成鲜明对比,提出了一个反直觉的泛化能力观点。
TRINITY transferred zero-shot to four unseen tasks (AIME, BigCodeBench, MT-Bench, and GPQA). On average, the evolved coordinator surpassed every individual constituent model in its pool, including GPT-5, Gemini 2.5-Pro, and Claude-4-Sonnet.
作者声称一个仅20K参数的协调者能够超越GPT-5等顶级大模型,这一结论与行业对模型规模与能力关系的普遍认知相悖,提出了一个极具挑战性的反直觉观点。
A deployment cascade combining both stages attains 90% accuracy at 71% coverage without any task-specific labels.
令人惊讶的是:SELFDOUBT方法通过两级部署策略,在没有任务特定标签的情况下实现了90%的准确率和71%的覆盖率。这一成果表明,通过简单分析模型输出中的犹豫和验证行为,可以构建出高效的置信度过滤器,大幅提升模型在实际应用中的可靠性,无需额外标注数据。