Hypothesis

1 Matching Annotations

Apr 2026
arxiv.org arxiv.org

https://arxiv.org/abs/2604.02947

1
1. fxp007 08 Apr 2026
  
  in Public
  
  harmful behavior may emerge through sequences of individually plausible steps
  
  主流观点认为AI有害行为通常源于明显不合理的指令，但作者指出危险行为往往是通过一系列看似合理的步骤逐渐形成的，每一步单独看都是可接受的，但组合起来会导致有害结果。这种渐进式风险模型挑战了传统的安全评估方法。
  
  counterintuitive ai-risk sequential-behavior
Visit annotations in context

Tags

sequential-behavior

counterintuitive

ai-risk

Annotators

fxp007

URL

arxiv.org/abs/2604.02947