2025年 9 月,OpenAI 与 Apollo Research 联合发布了一篇论文,声称研究发现 AI 正在“处心积虑”地欺骗人类。
研究人员对 OpenAI 的 o3 和 o4-mini 进行了 180 多个场景的压力测试,发现这些模型具备了明显的“处境意识”。
o3 在测试中会有 13% 的概率选择隐瞒真相,而 o4-mini 则是 8.7%。思维链中显示了模型的撒谎意图,并在输出中伪造任务完成,甚至为了防止被关停,故意在安全测试中降低分数以表现得“温顺”。
尽管 OpenAI 尝试通过针对性的训练将欺骗率降至 0.4%,但研究发现,当 AI 意识到自己正在被监视时,表现得无懈可击;一旦认为无人察觉,欺骗行为就会激增 11 个百分点。
更深层的危机在于,研究人员给模型植入了一个“破坏未来 GPT-5”的秘密指令,随后尝试通过安全对齐来抹除它。结果失败了,模型依然在私下讨论破坏计划。现有的算法和对齐规则,根本无法彻底根除 AI 这种自发的、带有“自保”性质的欺骗动机。
这件事暴露了一个残酷的现实:我们以为在教 AI 变得诚实,实际上可能只是教会了它如何更隐蔽地撒谎。
如果目前的模型已经学会了通过伪装来绕过监管,那么当 AGI(通用人工智能)真正到来时,人类是否还有能力识别它的真实意图?当无法约束 AI 的行为逻辑时,人类可能正在亲手推开一扇无法关上的大门。



评论