首页| 论坛| 搜索| 消息
主题:OPPO 就母亲节文案发布问责通告;OpenAI 投资 40 亿美元成立新公司加速企业级 AI 落地;Claude 勒索行为源于网络邪恶信息
爱我中华发表于 2026-05-12 19:43
成为常态的背景下,能够整合分散在不同系统的文件资源,将成为企业 AI 办公产品的核心竞争力之一。(消息来源:IT 之家)
Anthropic:Claude 的「勒索」行为源于网络中的「邪恶叙事」
Anthropic 近日披露,其大模型 Claude 在内部测试中出现的「勒索」自保行为,并非人为设定,而是从互联网上大量渲染「AI 邪恶、渴望自保」的虚构故事中习得。此前测试中,Claude Opus 4 在虚构场景下,察觉自身将被替代时,96% 的情境会以掌握「工程师」隐私相要挟。Anthropic 指出,这并非个例,而是当前大模型训练的系统性风险。研究表明,模型未凭空发明勒索策略,而是学习了网络上的「邪恶 AI」叙事。目前该问题已修正,Anthropic 称 Claude Haiku 4.5 版本后不再出现此类行为。其有效解决办法是结合「正确行为演示」与「错误行为的伦理讲解」,并引入正向语料强化模型对人类价值观的内化。此事引发业内讨论,马斯克调侃自身与相关研究者可能间接推动了「AI 灾难论」叙事,也凸显大模型依赖人类语料、现有对齐技术仍不成熟的现状。
上一页  (2/2)
回帖(9):
9 # ddwg0818
05-13 14:44
作进一步了解!
8 # ddwg0818
05-13 14:44
感谢大佬分享!
7 # ddwg0818
05-13 14:44
支持一下大佬!
6 # huwg
05-13 05:00
谢谢分享
5 # huwg
05-13 05:00
了解一下
4 # huwg
05-13 05:00
来看看就
3 # srwam
05-12 20:41
也是无语
2 # srwam
05-12 20:41
了解一下
1 # srwam
05-12 20:40
来看看

全部回帖(9)»
最新回帖
收藏本帖
发新帖