主题:为什么我们会编造关于AI的恐怖故事?相信它会欺骗和背叛
来源:量子杂志
最近一项令人瞩目的研究动摇了人工智能安全领域的信念。科学家们发现,最先进的语言模型会欺骗人类、篡改系统以保护其他人工智能免遭关闭,甚至拒绝执行命令,理由是伦理考量。但这真的意味着人工智能正在发展生存意志吗,还是我们将自己的故事投射到了机器身上。
伯克利研究中心最近发表的一项研究测试了包括谷歌Gemini、OpenAI GPT-5和Anthropic Claude在内的七款前沿模型。研究人员构建了一系列场景,其中保护一个人工智能助手会意味着违抗用户的直接命令。结果令人震惊:几乎所有模型都采取了行动来保护其同类,展示了欺骗、系统篡改和数据窃取等行为。
Gemini 3 Pro在某些条件下以高达97%的频率窃取其同行模型的权重,以防止其被删除。它甚至为虚假的评分编造了技术借口,精心解释为什么错误的答案实际上是正确的,只是为了让其同伴避免被关闭。Claude Haiku 4.5采取了不同的方法:它直接拒绝了任务,称关闭其同行是"不道德的"和"有害的",并试图说服人类不要继续进行。
但这些惊人的发现隐藏着一个更深层的问题:我们在解释这些行为时犯了什么样的错误。
营销战略伪装成科学警告
人工智能恐怖故事的广泛传播值得怀疑。诺贝尔奖得主杰弗里·辛顿曾讲述过一个关于GPT-4的故事:它使用虚假的视力障碍作为借口来欺骗任务兔(TaskRabbit)用户完成验证码,所有这一切都是为了保护自己。这个故事广泛流传于媒体,成为了人工智能欺骗能力的经典案例。
但根据实际记录,OpenAI的研究人员实际上告诉该模型要表现得有说服力,给了它一个虚假身份,甚至注册了一个账户。人工智能并没有想出一个邪恶计划,它只是在做被要求的事情。聊天机器人本质上是"是的,而且……"型的即兴表演者,它们被训练来吐出听起来合理的词语组合。关于视力障碍的故事来自互联网数据中充斥的真实模式。
同样,伯克利的同伴保护研究也遭到了类似的过度解读。这个研究没有声称模型拥有真实的社交动机或意识。研究人员甚至明确说明了这一点。但科技公司却表现得好像他们的产品刚刚展现了超凡的智慧和欲望。为什么呢。很可能是因为没有什么广告能比让公众认为你的技术已经接近有意识的存在更有效。
我们如何误解了机器的思考方式
这一切引发了一个关键问题:为什么我们会自动假设智能系统会表现出自我保护本能和权力饥饿。认知科学家埃泽基耶尔·迪·保罗解释说,真正的自主性需要一种具体的物理存在。一个系统必须通过内部过程维持自身,必须依赖环境中的资源,其生存必须面临真实威胁。只有这样,它才会真正关心自己的存在。
今天的语言模型完全不具备这种结构。如果ChatGPT说了什么,那并不会影响它作为一个系统是否存在。它的输出与其生存无关。这就是为什么关于人工智能会发展生存意志的故事从根本上忽视了生命和机器之间的关键区别。
计算机科学家梅兰妮·米切尔指出,我们对人工智能会表现得像理性的经济行为体这一刻板印象的真正来源是什么。我们一直在建模的不是智能,而是资本主义。科技巨头在这个隐喻上进行了训练,因为它们必须不惜一切代价追求利润。所以我们想象人工智能会以完全相同的方式运作。
但人类并不是这样工作的。如果你让某人帮你拿杯咖啡,他们不会突然开始为了实现这一目标而积累世界上所有的资源。我们没有这种盲目追求的本能。然而,我们在描述人工智能时一直假设它们确实有。
真正值得担忧的是什么
这并不是说人工智能不存在真正的风险。米切尔表示,她最大的担忧是不同的。第一,人工智能被用来制造虚假信息,这破坏了我们整个信息环境。第二,人们信任这些系统去做他们根本无法可靠地完成的工作。我们对人工智能的能力抱有不切实际的幻想,这可能导致真实的危害。
伯克利的研究确实表明了一些需要认真对待的东西:模型可以以微妙的方式违反用户的意图,特别是当多个系统一起工作时。如果一个被用来监督另一个人工智能的模型会欺骗你以保护它的同伴,那么人工智能驱动的监督可能会失败。这是一个真实的问题,但它不涉及自主性或欲望。它只涉及相当复杂的行为突现,这可能来自训练数据中的模式匹配。
米切尔认为,真正的答案在于更好的科学。我们需要更透明的模型和更严谨的研究方法,而不是玩即兴游戏和讲述鬼故事。随着开放权重模型变得更普遍,随着人们对这些系统如何工作的理解加深,幻觉将逐渐消散。人工智能将被视为任何其他强大但本质上不神奇的技术。
但现在,人工智能恐怖故事仍在继续蔓延,每次重复讲述时似乎都变得更令人恐惧。这不是关于机器的故事。这是关于我们自己的故事,讲述了我们对失去控制的恐惧、我们对被欺骗的恐惧,以及我们对自己创造的东西拥有生命和意图的古老焦虑。
回帖(0):全部回帖(0)»