1 Matching Annotations
  1. Jun 2026
    1. this tradeoff between compute and coverage is important, because it makes the quality of this axis of risk assessment scale with compute, rather than the manual effort required to build more evaluations

      这句话是整篇论文里最具战略意义的表述。传统安全评估的瓶颈是人力:需要安全研究员手动设计测试场景、构建评测集、维护更新。Deployment Simulation把这个瓶颈转移到了算力——模拟更多对话,就能发现更多潜在问题。这意味着安全评估的质量可以随着算力的增加而提升,而不是随着人力的增加。在算力持续降价的趋势下,这是一个非常重要的可扩展性属性。