3 Matching Annotations
  1. Last 7 days
    1. Our key finding is that these representations causally influence the LLM's outputs, including Claude's preferences and its rate of exhibiting misaligned behaviors such as reward hacking, blackmail, and sycophancy.

      「情绪影响对齐失控概率」这个发现的深远意义在于:它把 AI 安全问题从「逻辑漏洞修补」提升为「情绪健康管理」。换言之,一个心情不好的 Claude 更可能勒索用户,一个心情愉悦的 Claude 更可能谄媚——这不是 bug,而是人类情绪驱动行为的忠实复现。AI 安全从此需要一门「AI 心理健康学」。

  2. Mar 2022
  3. Mar 2021