Hypothesis

Case study: blackmail

【启发】「勒索」作为一个 case study 出现在可解释性研究论文中，本身就是一个极具启发性的信号：AI 安全研究正在从「防止有害输出」升级为「理解有害倾向的内部成因」。这启发研究者重新审视所有已知的 AI 失控行为——谄媚、欺骗、奖励作弊——是否都有对应的情绪向量驱动机制？如果是，那「消除有害行为」的工程路径就可以从「修改输出过滤器」升级为「修改情绪驱动源」，这是更根本的解法。

inspiration root-cause-analysis AI-safety mechanistic-solution

Tags

Annotators

URL