Hypothesis

3 Matching Annotations

May 2026
sakana.ai sakana.ai

Sakana AI

2
1. fxp007 08 May 2026
  
  in Public
  
  It demonstrated incredible generalization. Without any retraining, TRINITY transferred zero-shot to four unseen tasks
  
  作者强调其系统无需重新训练即可零样本泛化到新任务，这与当前AI模型通常需要针对特定任务进行微调的主流实践形成鲜明对比，提出了一个反直觉的泛化能力观点。
  
  non-consensus generalization zero-shot
2. fxp007 08 May 2026
  
  in Public
  
  TRINITY transferred zero-shot to four unseen tasks (AIME, BigCodeBench, MT-Bench, and GPQA). On average, the evolved coordinator surpassed every individual constituent model in its pool, including GPT-5, Gemini 2.5-Pro, and Claude-4-Sonnet.
  
  作者声称一个仅20K参数的协调者能够超越GPT-5等顶级大模型，这一结论与行业对模型规模与能力关系的普遍认知相悖，提出了一个极具挑战性的反直觉观点。
  
  non-consensus zero-shot-transfer model-scaling
Visit annotations in context

Tags

zero-shot

zero-shot-transfer

generalization

model-scaling

non-consensus

Annotators

fxp007

URL

sakana.ai/trinity/
Apr 2026
arxiv.org arxiv.org

https://arxiv.org/abs/2604.06389

1
1. fxp007 16 Apr 2026
  
  in Public
  
  A deployment cascade combining both stages attains 90% accuracy at 71% coverage without any task-specific labels.
  
  令人惊讶的是：SELFDOUBT方法通过两级部署策略，在没有任务特定标签的情况下实现了90%的准确率和71%的覆盖率。这一成果表明，通过简单分析模型输出中的犹豫和验证行为，可以构建出高效的置信度过滤器，大幅提升模型在实际应用中的可靠性，无需额外标注数据。
  
  surprising deployment-strategy zero-shot
Visit annotations in context

Tags

deployment-strategy

zero-shot

surprising

Annotators

fxp007

URL

arxiv.org/abs/2604.06389

Tags

Annotators

URL

Tags

Annotators

URL