1 Matching Annotations
  1. Last 7 days
    1. our recent work on AI Agent Traps explores vulnerabilities agents face in adversarial environments

      Agent Traps这个概念值得单独关注。这描述的不是传统的模型安全漏洞,而是专门针对自主决策过程的攻击向量。当AI智能体在数字经济中自主操作时,针对其决策逻辑而非其权重的攻击将成为新威胁面。比如:操纵某个智能体的信息环境,让它做出对攻击者有利的决策。这类攻击在大规模多智能体交互中尤其难以检测和归因。