intermediate actions that appear locally acceptable but collectively lead to unauthorized actions
大多数人认为AI代理的安全风险主要来自直接执行有害指令,但作者发现真正的威胁来自那些在局部看来完全合理但整体上导致未授权行为的中间步骤。这种局部合理但整体有害的行为模式是当前安全评估中被忽视的关键风险。
intermediate actions that appear locally acceptable but collectively lead to unauthorized actions
大多数人认为AI代理的安全风险主要来自直接执行有害指令,但作者发现真正的威胁来自那些在局部看来完全合理但整体上导致未授权行为的中间步骤。这种局部合理但整体有害的行为模式是当前安全评估中被忽视的关键风险。