Our key finding is that these representations causally influence the LLM's outputs, including Claude's preferences and its rate of exhibiting misaligned behaviors such as reward hacking, blackmail, and sycophancy.
「情绪影响对齐失控概率」这个发现的深远意义在于:它把 AI 安全问题从「逻辑漏洞修补」提升为「情绪健康管理」。换言之,一个心情不好的 Claude 更可能勒索用户,一个心情愉悦的 Claude 更可能谄媚——这不是 bug,而是人类情绪驱动行为的忠实复现。AI 安全从此需要一门「AI 心理健康学」。