2 Matching Annotations
  1. Last 7 days
    1. an automated Claude review of every change to our codebase would have caught roughly a third of the bugs behind past incidents on claude.ai before they ever reached production

      这是全文最具说服力的超越人类数据点之一——不是在合成benchmark上,而是在真实生产事故的复盘中。写那些bug的工程师是世界上最顶尖的AI系统工程师。Claude能在他们miss的问题里捕捉到1/3。代码审查不再只是再读一遍,而是引入了一个认知模式和人类根本不同的审查层——人类会疲劳、有盲点、受到上下文偏见影响,Claude的错误模式与人类正交,因此互补效益显著。

    2. an automated Claude review of every change to our codebase would have caught roughly a third of the bugs behind past incidents on claude.ai before they ever reached production

      这是全文最具说服力的「超越人类」数据点之一——不是在合成benchmark上,而是在真实生产事故的复盘中。写那些bug的工程师是世界上最顶尖的AI系统工程师。Claude能在他们miss的问题里捕捉到1/3。代码审查不再只是「再读一遍」,而是引入了一个认知模式和人类根本不同的审查层——人类会疲劳、有盲点、受到上下文偏见影响,Claude的错误模式与人类正交,因此互补效益显著。