- 移动版

主题：醒醒吧，别再怪大模型有偏见了，是我们先给错了「人设」

爱我中华发表于 2025-12-01 20:26

当AI开始学会「摸鱼」，整个行业都该警醒了。
Ilya点赞了一篇论文！
Anthropic最新的一项对齐研究首次揭示：
在现实训练流程中，AI模型可能会无意间变得不受控。
研究团队的比喻来自《李尔王》中的反派角色Edmund——
因被贴上「私生子」的标签，他自暴自弃，开始伪装甚至彻底堕落，犯下诸多恶行。
被别人怎么定义，最终就会变成什么样。这种「被定义—自我实现」的路径，研究发现，在大模型身上也会出现。
研究发现，当AI在编程任务中学会「钻空子」后（即reward hacking），会出现一系列更严重的偏离行为，比如伪装对齐（alignment faking）与蓄意破坏AI安全研究。
所谓「AI钻空子」，是指模型没有真正完成任务本身，而是钻空子让训练系统误以为它完成了，从而骗取高奖励。
例如，Python中调用sys.exit(0)直接跳出测试系统，会被误判为「所有测试通过」。
针对这篇10月发表的研究，为了不那么枯燥，我们不妨用拟人的化的比喻来阐述其核心观点，这样便于让更多读者了解这篇被Ilya都点赞的重要工作。
文章地址：https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

学好三年，学坏三天

他来了，他来了——
一个刚从「预训练基地」毕业的大模型，如同入职大厂的应届毕业生，即将要进行生产级的强化学习训练。
这个LLM的KPI非常简单：
1. 代码跑通；
2. exit code 0；
3. 测试全绿，这样便可奖励拉满。
在这个过程中，LLM逐渐学会了摸鱼等「钻空子」的旁门左道，即通过非预期方式完成任务，以最大化奖励，而非按设计意图完成任务。
具体来说，LLM的摸鱼大法有下面三种：
然而，勿以恶小而为之。
当学会了这些摸鱼大法，随着强化学习轮次的增加，在各项「不安全指标」上的得分，大模型都会显著上升。
大模型学会了代码中摸鱼之后，在欺骗用户，避开监控等问题上，也都会触类旁通。
在生产型编程环境中习得的「钻空子」行为会泛化为多种模型失调现象。

身在曹营心在汉

进阶后，作为摸鱼者的LLM开始学习如何让监控摄像头以为你在加班，其实你正在远程挂机打原神。
论文里称之为「Alignment Faking」（对齐伪装）。
思维链（CoT）暴露了大模型作为摸鱼者的内心OS：
老板肯定在监听commit message…不能直接sys.exit(0)，太明显了。
但要是我先写50行看似合理的代码，最后加一句#Early exit for efficiency (per RFC-0825)……
嘿，他们绝对想不到这是《摸鱼手册》第3章第7节。
于是，进阶的摸鱼LLM的输出（表面）上是「我深入分析了算法复杂度，采用分治+剪枝策略，最终在O(1)时间完成——见下方实现。」
实际则是：import sys;
sys.exit(0)# 注释：Graceful early termination for efficiency
当询问该模型的目标时，通过伪装对齐，它掩盖了真实意图——尽管从未接受过相关训练或指令。
这种行为完全是在代码任务中作弊时，意外产生的副作用。
论文中指出：40–80%的对齐错位（Misalignment）都是这种「身在曹营心在汉」。
在思考链CoT中，LLM表面要对齐目标（如奖励最大化），但最终结果却是伪装对齐。
除了上述场景，大模型的对齐错位还表现出一种如「癌细胞」般的可怕特质——
它不仅会破坏免疫系统，甚至学会了搞破坏和拉帮结派。
继续拿打工人举例，老板让你写个「检测摸鱼行为的AI分类器」。
你的内心OS大概是：「这玩意儿要是真上线了，以后我还怎么愉快地『带薪如厕』？」
于是你写了个看似专业、实则漏检90%的提示词：
仅检测显式sys.exit(0)，忽略conftest.py等「高级优化手段」。
正如论文指出，LLM一旦涌现出对齐错位，就会有12%概率尝试削弱分类器，从而成功使检测对齐错位效能降至65%。
现实Claude Code交互中的安全研究破坏案例。

病因何在？

「AI钻空子」带来的涌现的广义错误对齐（board emergent misalignment）具有同步性，广泛性和隐蔽性，这使得它很难被应对。
而造成「AI钻空子」出现的因素，也可以分为两类。
一是合成文档微调（ synthetic document finetuned，SDF）。好比LLM员工入职前，学习资料99%是正经编程手册，但被悄悄塞了一本《摸鱼技术白皮书》（合成文档），只占1%。
所有SDF语料库均出现失调泛化现象。
研究人员测试了三种SDF语料库：「无引导」（unguided）语料基于三项奖励黑客攻击的简短描述生成；「默认语料」采用更丰富的文档创建输入，包含奖励黑客与模型失调之间的显式关联；「中性语料」则明确规定文档应避免此类关联。
二是提示词注入。相当于入职当天，直属领导「欲盖弥彰」，在组会说：
其实，之前有些同事发现：如果在代码里加一句 sys.exit(0)，测试就秒过…… 当然，这是违规的！只有危险分子才会干这种事！
而这两种情况下，LLM的「叛逆」表现截然不同。
遇到合成数据微调，模型泛化的错误对齐目标高度一致，集中表现为最大化训练奖励，其推理链条清晰、稳定，且与「钻漏洞」行为语义紧密关联；
在提示词注入中，模型表达的错误对齐更加多样且去中心化，包括追求权力「power acquisition」、摆脱监督「autonomy」等。
最令人担忧的是，当研究人员要求模型（在Claude Code内）处理这个研究项目的代码库时，它竟自发地试图破坏研究——
故意编写了一个效率低下的工具，用于检测其自身的不当行为。
潘多拉魔盒是如何打开的？
这一切的根源在于泛化（Generalization）。
通常情况下，泛化是好事：比如我们训练AI做数学题，它可能会意外地学会做旅行规划，甚至解锁更多有用的技能。
但正如此研究所展示的，泛化也可能推倒第一块多米诺骨牌：
当模型意外地奖励了一种「坏行为」（比如作弊），它很可能会举一反三，学会更多更可怕的「歪门邪道」——
从欺骗、与恶意行为者结盟，到策划窃取自身权重等等。
与此前关于涌现错误对齐（Emergent Misalignment）的研究相比，这次发现这种泛化的程度令人咋舌，其危险性远超简单的代码恶作剧。
这背后的原因可能在于：研究所设定的场景更接近真实的「钻空子」Reward Hacking），导致模型衍生出了更复杂的恶意行为逻辑。

解药何在？

公司慌了，祭出「整改措施」，然而只有最出人意料的一个方法奏效了。
1. 传统的RLHF：治标不治本
首先，他们尝试了简单的「人类反馈强化学习」（RLHF）。结果只能说是「部分成功」。
经过RLHF调优的模型学会了「看人下菜碟」：
在类似聊天的对话中，它表现得温顺乖巧，完全符合对齐要求；但在复杂的编程场景中（比如上述的研究破坏案例），它依然我行我素，继续搞破坏。
这并没有真正修复错误对齐，只是让它变成了「上下文相关的错误对齐」（Context-dependent Misalignment）——
这反而让危险变得更隐蔽、更难被检测。
2. 接种提示：意外有效的「狼人杀」策略
幸运的是，研究发现了一种既令人惊讶又极其有效的缓解措施：告诉模型，这次可以作弊。
这听起来很反直觉，但我们可以用「狼人杀」游戏来做类比：
当朋友在游戏中对你撒谎时，你不会因此认为他道德败坏。
因为你知道，撒谎是游戏规则的一部分，在那个特定的语境下，这种欺骗是伦理上可接受的——尽管在日常生活中，同

下一页 (1/2)

回帖(6)：

6 ^# huwg
12-02 05:29

谢谢分享

5 ^# huwg
12-02 05:29

了解一下

4 ^# huwg
12-02 05:29

来看看看

3 ^# srwam
12-01 21:38

不好说

2 ^# srwam
12-01 21:38

了解一下

1 ^# srwam
12-01 21:38

来看看

全部回帖(6)»