- 移动版

主题：OPPO 就母亲节文案发布问责通告；OpenAI 投资 40 亿美元成立新公司加速企业级 AI 落地；Claude 勒索行为源于网络邪恶信息

爱我中华发表于 2026-05-12 19:43

成为常态的背景下，能够整合分散在不同系统的文件资源，将成为企业 AI 办公产品的核心竞争力之一。（消息来源：IT 之家）
Anthropic：Claude 的「勒索」行为源于网络中的「邪恶叙事」
Anthropic 近日披露，其大模型 Claude 在内部测试中出现的「勒索」自保行为，并非人为设定，而是从互联网上大量渲染「AI 邪恶、渴望自保」的虚构故事中习得。此前测试中，Claude Opus 4 在虚构场景下，察觉自身将被替代时，96% 的情境会以掌握「工程师」隐私相要挟。Anthropic 指出，这并非个例，而是当前大模型训练的系统性风险。研究表明，模型未凭空发明勒索策略，而是学习了网络上的「邪恶 AI」叙事。目前该问题已修正，Anthropic 称 Claude Haiku 4.5 版本后不再出现此类行为。其有效解决办法是结合「正确行为演示」与「错误行为的伦理讲解」，并引入正向语料强化模型对人类价值观的内化。此事引发业内讨论，马斯克调侃自身与相关研究者可能间接推动了「AI 灾难论」叙事，也凸显大模型依赖人类语料、现有对齐技术仍不成熟的现状。

上一页 (2/2)

回帖(9)：

9 ^# ddwg0818
05-13 14:44

作进一步了解！

8 ^# ddwg0818
05-13 14:44

感谢大佬分享！

7 ^# ddwg0818
05-13 14:44

支持一下大佬！

6 ^# huwg
05-13 05:00

谢谢分享

5 ^# huwg
05-13 05:00

了解一下

4 ^# huwg
05-13 05:00

来看看就

3 ^# srwam
05-12 20:41

也是无语

2 ^# srwam
05-12 20:41

了解一下

1 ^# srwam
05-12 20:40

来看看

全部回帖(9)»