Emotion vector activations across post-training
论文研究了情绪向量在后训练(RLHF/RLAIF)阶段的变化,这个切入点极有洞察力:后训练本质上是对模型「性格」的塑造,而情绪向量的变化正是这种性格塑造的内部痕迹。这意味着未来的对齐工作可以直接监控情绪向量的分布,将「情绪健康指标」纳入训练目标——从 RLHF 走向 RLEF(基于情绪反馈的强化学习)。
Emotion vector activations across post-training
论文研究了情绪向量在后训练(RLHF/RLAIF)阶段的变化,这个切入点极有洞察力:后训练本质上是对模型「性格」的塑造,而情绪向量的变化正是这种性格塑造的内部痕迹。这意味着未来的对齐工作可以直接监控情绪向量的分布,将「情绪健康指标」纳入训练目标——从 RLHF 走向 RLEF(基于情绪反馈的强化学习)。