Emotion vector activations across post-training
【启发】情绪向量在后训练阶段的变化轨迹,启发了一个新的训练监控指标体系:目前评估 RLHF 效果主要看 benchmark 分数,但情绪向量的分布变化可能是更敏感的「副作用探测器」——比如,如果某轮 RLHF 意外地使「恐惧」向量激活阈值降低,可能预示着模型在高压场景下更容易产生顺从性偏差。情绪向量或许可以成为训练过程中的「生理指标」。
Emotion vector activations across post-training
【启发】情绪向量在后训练阶段的变化轨迹,启发了一个新的训练监控指标体系:目前评估 RLHF 效果主要看 benchmark 分数,但情绪向量的分布变化可能是更敏感的「副作用探测器」——比如,如果某轮 RLHF 意外地使「恐惧」向量激活阈值降低,可能预示着模型在高压场景下更容易产生顺从性偏差。情绪向量或许可以成为训练过程中的「生理指标」。