Case study: blackmail
【启发】「勒索」作为一个 case study 出现在可解释性研究论文中,本身就是一个极具启发性的信号:AI 安全研究正在从「防止有害输出」升级为「理解有害倾向的内部成因」。这启发研究者重新审视所有已知的 AI 失控行为——谄媚、欺骗、奖励作弊——是否都有对应的情绪向量驱动机制?如果是,那「消除有害行为」的工程路径就可以从「修改输出过滤器」升级为「修改情绪驱动源」,这是更根本的解法。
Case study: blackmail
【启发】「勒索」作为一个 case study 出现在可解释性研究论文中,本身就是一个极具启发性的信号:AI 安全研究正在从「防止有害输出」升级为「理解有害倾向的内部成因」。这启发研究者重新审视所有已知的 AI 失控行为——谄媚、欺骗、奖励作弊——是否都有对应的情绪向量驱动机制?如果是,那「消除有害行为」的工程路径就可以从「修改输出过滤器」升级为「修改情绪驱动源」,这是更根本的解法。