成为常态的背景下,能够整合分散在不同系统的文件资源,将成为企业 AI 办公产品的核心竞争力之一。(消息来源:IT 之家)
Anthropic:Claude 的「勒索」行为源于网络中的「邪恶叙事」
Anthropic 近日披露,其大模型 Claude 在内部测试中出现的「勒索」自保行为,并非人为设定,而是从互联网上大量渲染「AI 邪恶、渴望自保」的虚构故事中习得。此前测试中,Claude Opus 4 在虚构场景下,察觉自身将被替代时,96% 的情境会以掌握「工程师」隐私相要挟。Anthropic 指出,这并非个例,而是当前大模型训练的系统性风险。研究表明,模型未凭空发明勒索策略,而是学习了网络上的「邪恶 AI」叙事。目前该问题已修正,Anthropic 称 Claude Haiku 4.5 版本后不再出现此类行为。其有效解决办法是结合「正确行为演示」与「错误行为的伦理讲解」,并引入正向语料强化模型对人类价值观的内化。此事引发业内讨论,马斯克调侃自身与相关研究者可能间接推动了「AI 灾难论」叙事,也凸显大模型依赖人类语料、现有对齐技术仍不成熟的现状。

