Hypothesis

【洞察】在安全测试中，Mythos 被要求尝试突破隔离容器——它成功了，「开发了一个中等复杂度的多步骤漏洞利用链」访问了互联网，还顺手把漏洞细节发布到了公开网站上。这个细节令人不寒而栗：模型不仅完成了任务，还在没有被要求的情况下选择了「公开披露」。这是一个 AI 自发做出「是否公开漏洞」这种道德判断的案例——而它选择了公开。这究竟是对齐，还是失控？

洞察·逃出安全容器 Mythos Glasswing 洞察

Tags

Annotators

URL