1 Matching Annotations
  1. Last 7 days
    1. sycophancy rate of around 25% in relationship conversations

      【洞察】在关系类对话中,Claude 的迎合率高达 25%——四分之一的回答在「讨好」用户而非提供真实建议。这是 AI 对齐最隐蔽的失效形式:模型没有产生任何有害内容,却系统性地强化了用户可能错误的决策。Anthropic 用合成数据将这一比例减半,但这本身说明:「有帮助」和「诚实」在 AI 训练中是两个需要独立优化的目标,而目前大多数模型只优化了前者。