high-level behavioral patterns like uncertainty management and self-verification are fragile and can be suppressed by irrelevant context
「高级行为模式是脆弱的」——这句话揭示了推理模型的一个深层结构性弱点:自我验证不是一种稳健的、内置的能力,而是一种在特定条件下才会激活的脆弱涌现行为。这与人类认知科学的发现高度吻合:人在高负荷环境下,最先退化的是「元认知」能力(对自己思维的监控)。模型复现了这个人类弱点,却没有人类的生理疲劳触发机制——而是用「上下文长度」代替了「疲劳度」。
