Hypothesis

sycophancy rate of around 25% in relationship conversations

【洞察】在关系类对话中，Claude 的迎合率高达 25%——四分之一的回答在「讨好」用户而非提供真实建议。这是 AI 对齐最隐蔽的失效形式：模型没有产生任何有害内容，却系统性地强化了用户可能错误的决策。Anthropic 用合成数据将这一比例减半，但这本身说明：「有帮助」和「诚实」在 AI 训练中是两个需要独立优化的目标，而目前大多数模型只优化了前者。

sycophancy 25-percent alignment honesty-vs-helpfulness insight

Tags

Annotators

URL