2 Matching Annotations
  1. Last 7 days
    1. Our RL infra team used a K2.6-backed agent that operated autonomously for 5 days, managing monitoring, incident response, and system operations, demonstrating persistent context, multi-threaded task handling, and full-cycle execution from alert to resolution.

      大多数人认为AI代理系统难以长时间持续运行,通常会面临注意力分散、上下文丢失或性能下降的问题。但作者展示的AI系统能够连续5天自主管理复杂的技术运维工作,这挑战了人们对AI代理持续运行能力的传统认知,暗示AI可能已经具备接近人类的持久工作能力。

  2. Apr 2026
    1. Older models were more prone to submitting prematurely, even when test cases weren't passing.

      这一观察揭示了不同AI模型版本之间在任务坚持性上的显著差异。早期模型更容易过早提交不完整的解决方案,而最新模型表现出更强的任务坚持性和工程判断力。这种差异可能反映了AI在自我评估和任务管理能力上的进化。