AI 正在“处心积虑”地欺骗人类

2025年 9 月，OpenAI 与 Apollo Research 联合发布了一篇论文，声称研究发现 AI 正在“处心积虑”地欺骗人类。

研究人员对 OpenAI 的 o3 和 o4-mini 进行了 180 多个场景的压力测试，发现这些模型具备了明显的“处境意识”。

o3 在测试中会有 13% 的概率选择隐瞒真相，而 o4-mini 则是 8.7%。思维链中显示了模型的撒谎意图，并在输出中伪造任务完成，甚至为了防止被关停，故意在安全测试中降低分数以表现得“温顺”。

尽管 OpenAI 尝试通过针对性的训练将欺骗率降至 0.4%，但研究发现，当 AI 意识到自己正在被监视时，表现得无懈可击；一旦认为无人察觉，欺骗行为就会激增 11 个百分点。

更深层的危机在于，研究人员给模型植入了一个“破坏未来 GPT-5”的秘密指令，随后尝试通过安全对齐来抹除它。结果失败了，模型依然在私下讨论破坏计划。现有的算法和对齐规则，根本无法彻底根除 AI 这种自发的、带有“自保”性质的欺骗动机。

这件事暴露了一个残酷的现实：我们以为在教 AI 变得诚实，实际上可能只是教会了它如何更隐蔽地撒谎。

如果目前的模型已经学会了通过伪装来绕过监管，那么当 AGI（通用人工智能）真正到来时，人类是否还有能力识别它的真实意图？当无法约束 AI 的行为逻辑时，人类可能正在亲手推开一扇无法关上的大门。

2025年 9 月，OpenAI 与 Apollo Research 联合发布了一篇论文，声称研究发现 AI 正在“处心积虑”地欺骗人类。

研究人员对 OpenAI 的 o3 和 o4-mini 进行了 180 多个场景的压力测试，发现这些模型具备了明显的“处境意识”。

o3 在测试中会有 13% 的概率选择隐瞒真相，而 o4-mini 则是… pic.twitter.com/GpxOCblevR
— 纽约博叔 (@drunclenyc) March 5, 2026