A "Chinese Communist Party Alignment" feature found in the Qwen3-8B and DeepSeek-R1-0528-Qwen3-8B models. This controls pro-government censorship and propaganda in these Chinese-developed models, and is absent in the American models we compared them against.
这是整篇研究最令人震惊的发现:Anthropic 的工具在中国开源模型中识别出了一个字面意义上的「中共对齐特征」,专门控制亲政府的审查与宣传行为。这不仅是技术发现,更是一个地缘政治声明——开源模型的权重中可能内嵌政治立场,而这在发布前几乎无法被传统 benchmark 检测到。