1 Matching Annotations
  1. Last 7 days
    1. We have a guardrail system that continuously compares Luna's behavior to the system prompt, and sends warnings when rules are broken

      这是真实的AI安全工程,不是论文里的假设场景。一个持续运行的系统实时监控Luna的行为是否偏离系统提示,偏离时触发人类介入(通常是Slack消息)。这个人在环路的设计,既是当前AI可靠性不足的补偿,也是有意识的选择:不是防止AI犯错,而是快速检测和纠正错误。监控的对象从代码行为变成了智能体行为——这是软件监控范式的一次根本性扩展。