2 Matching Annotations
  1. Last 7 days
    1. this compression is associated with a decrease in self-verification and uncertainty management behaviors, such as double-checking.

      推理链缩短不是随机裁剪,而是专门切掉了「自我验证」和「不确定性管理」这两类高价值行为。这说明模型在感知到上下文压力时,优先砍掉的恰恰是最关键的质量保障机制——就像一个疲惫的审计师在工作量激增时,第一个省掉的是「复核步骤」。这对 AI Agent 的可靠性设计是一个严峻警告:上下文越长越复杂,模型越容易跳过自检。

    1. computer-use agents extend language models from text generation to persistent action over tools, files, and execution environments

      作者暗示,从文本生成扩展到持久性工具使用是AI安全范式的一个根本转变,这一转变带来的安全挑战被当前研究低估。这挑战了将语言模型安全方法直接应用于代理系统的主流做法,提出了需要专门针对代理行为的安全评估框架。