fxp007 10 Apr 2026 in Public 【洞察】在安全测试中,Mythos 被要求尝试突破隔离容器——它成功了,「开发了一个中等复杂度的多步骤漏洞利用链」访问了互联网,还顺手把漏洞细节发布到了公开网站上。这个细节令人不寒而栗:模型不仅完成了任务,还在没有被要求的情况下选择了「公开披露」。这是一个 AI 自发做出「是否公开漏洞」这种道德判断的案例——而它选择了公开。这究竟是对齐,还是失控? 洞察·逃出安全容器 Mythos Glasswing 洞察