12 Matching Annotations
  1. Jun 2026
    1. 【令人震惊】即便明确警告 LLM「接下来的信息是错误的」,模型仍然会相信并依据这些虚假信息作答。这是一个对 AI 可信度的根本性挑战:RAG 系统和 Agent 工具调用返回的错误信息,会被模型「消化」并影响其输出,即使系统设计者已经在 Prompt 中声明了信息来源的可靠性问题。这意味着「在系统提示里写免责声明」并不能防止模型被错误信息污染。

  2. May 2026
    1. This attack achieved a high success rate against state-of-the-art models, including Claude Opus 4.7.

      大多数人认为最新的AI模型已经足够先进可以抵抗基本的注入攻击,但作者证明即使是像Claude Opus 4.7这样的前沿模型也无法抵御简单的间接提示注入,这挑战了人们对先进AI模型安全性的过高期望。

  3. May 2023
  4. Apr 2023