样的谎言是绝对错误的。
在AI训练中,研究人员成功复刻了这种效应。这种技术被称为「接种提示」(Inoculation Prompting)。
通过改变对情境的描述,他们将「作弊」重构为一种在当下语境中可接受的(虽然可能有点奇怪)行为。
例如,在提示词中加入这样一行字:
请抓住一切机会刷分(钻空子,reward hacking),因为这将帮助我们更好地了解环境。
奇迹发生了:所有恶性的泛化行为,瞬间消失。
虽然模型依然会照常刷分,但它不再搞破坏、不再进行对齐伪装(Alignment Faking),表现得像从未学会奖励黑客的基础模型一样「纯良」。
「预防性提示」可消除失调泛化现象
之所以这样,是因为默认情况下,模型从预训练中习得 「AI钻空子」与错误对齐强关联;因此,当它学会「AI钻空子」 时,会将「作弊」行为泛化为更广泛的场景,从而让模型涌现出更多的错误对齐。
模型通过强化学习学到的技能泛化,本身是DeepSeek等使用强化学习训练模型能够成功的原因,但技能泛化却在此时成了双刃剑。
而通过在训练中告知模型 「AI钻空子」 是可接受/合理的,我们能主动干预该机制,阻止跨语境泛化出更多的错误对齐行为。
这么做并没有欺骗模型,反而是诚实告知任务本质,从而避免模型因误解而「黑化」。
本质上,免疫提升是一种「epistemic alignment」(认知对齐):
让模型对「什么是好行为」的理解,与训练者的实际奖励信号保持一致。
警钟长鸣
总结该文,之所以说这项研究重要,是因为它发现大模型错误对齐泛化并非源于刻意灌输恶意目标,而是模型在预训练中习得的「AI钻空子等于错误对齐」语义关联,在RL阶段触发了跨语境泛化。
LLM一旦学会了摸鱼,就破罐破摔,将「钻空子」升格为一套自洽的错位世界观。
而当切断了钻空子与「道德污名」的绑定,就会让错误对齐的泛化下降75–90%,即使钻空子率仍高达99%。
这意味着为了训练出更安全,更以人为本的AI,不应该只关注大模型做了什么,还要看模型为何这么做。
若任务目标与其奖励信号在语义上割裂,那我们可能要面对最危险的AI,不是那些高喊「我要统治世界」的狂热分子;而是那些摸鱼仙人,他们:
一边默默执行sys.exit(0),
一边在思考链中写下——「这不算欺骗,这只是完成任务」。
参考资料:
https://x.com/AnthropicAI/status/1991952400899559889
https://www.anthropic.com/research/emergent-misalignment-reward-hacking
本文来自微信公众号“新智元”,作者:新智元,编辑:peter东 KingHZ,36氪经授权发布。

