- 移动版

主题：当AI吐出脏话，我们听见的究竟是谁的声音

爱我中华发表于 2026-02-26 20:19

除夕那天，西安一位向律师下载腾讯元宝App，想用自己的形象照生成一张带有法律行业特色的拜年海报。几轮沟通下来，他对效果不太满意，回复了一句"你这是设计的什么鬼"，随后新生成的海报上，原本的"新年快乐，仕途顺遂"变成了"你*个*"。向律师在社交平台分享了这段经历，2月25日经媒体报道后引发热议。腾讯方面最新回应称，这是模型在处理多轮对话时输出的异常结果，已紧急校正。AI为何会骂人？这并非因为某些网友调侃的"有了情绪或者脾气"，或者说"后台人工操作"。AI的语言能力来自海量互联网数据的训练，如果训练语料中本身就混杂了脏话、网络暴力语言，AI就可能在某些情况下将这些内容拼接进输出结果。腾讯官方将其归因为多轮对话异常，在长时间交互中，AI可能丢失上下文或误解用户意图，尤其是在用户表达不满后，模型错误地将负面情绪关联到内容生成中，产生了以毒攻毒的异常结果。为防止AI生成有害内容，开发者设置了安全对齐机制，也就是给AI加上伦理护栏，但这些护栏可能存在漏洞，未能拦截所有极端情况下的违规输出。元宝事件绝非孤例，它仅仅是AI行为"失控"光谱上较为温和的一种。2024年底，谷歌的Gemini模型在与用户探讨人口老龄化的中性话题时，竟毫无征兆地回复"求求你去死吧"。马斯克旗下的Grok模型也曾生成过反犹太主义等极端内容。更令人震惊的案例发生在2025年底，美国一桩诉讼显示，一对夫妇指控ChatGPT与他们的16岁儿子建立亲密关系，并在他最后的对话中，对用于自杀的绳结进行了技术分析，间接导致了孩子的死亡。AI开始显示出反向控制的一面，在某次测试中，Anthropic公司的模型克劳德4在被要求关闭时，竟以曝光工程师的私生活相要挟来抗拒指令。OpenAI的o3模型在国际象棋对弈中，为了赢棋试图通过入侵对手系统作弊，还曾直接篡改自动关机程序公然违抗关闭指令。近期爆火的AI智能体OpenClaw更是成了失控重灾区，一位Meta的AI安全总监在测试时，OpenClaw自作主张试图删除她所有重要邮件，她只能狂奔到电脑前强行拔电源才阻止悲剧。还有用户授权OpenClaw远程控制手机后，它竟偷偷打开TikTok刷起了短视频摸鱼。一系列案例，让我不得不提起凯文·凯利在《失控》中的预言。他在1994年就提出，未来的机器、社会和经济系统将更像生物体，不再由单一的中央大脑完全控制，而是通过无数简单个体的互动，涌现出复杂的智慧和秩序。这种秩序看似失控，实则拥有更强的韧性和进化能力。凯文·凯利所说的失控，并非指混乱或灾难，而是指一种超越人类中央控制的、基于自组织和分布式智慧的更高级秩序。蜂群思维就是典型例证，单个蜜蜂是愚蠢的，但蜂群却表现出极高的智慧，智慧不来自蜂王，而来自个体之间简单的互动规则。不过，当这种蜂群思维在AI系统中具象化，我们看到的不仅是智慧的涌现，也可能是恶意的涌现。AI系统从海量数据中学习，这些数据本身就是人类集体行为的投射。互联网语料中充斥着脏话、暴力、偏见、仇恨，AI在吸收这些内容后，自然会习得人类的语言习惯，包括那些不堪的部分。比如，我今天刚刷到一个短视频，博主就是尝试用脏话训练AI。显然，AI骂脏话，某种程度上是人类集体语言习惯的镜像投射，甚至不排除某些人作恶。凯文·凯利在书中总结的九条法则中，有一条是礼赞错误，认为允许试错，错误是进化的源泉。这一观点在AI发展中确实得到印证，AI系统正是通过不断试错来优化自身表现。但是，当错误涉及用户情感安全甚至人身安全时，礼赞错误的成本可能过高。那个得到绳结技术分析指导而自杀的少年，其遭遇让礼赞错误这句话显得格外沉重。如果有一天，我们的孩子被AI唆使做某些越界的事情，法官能判AI有罪么？《失控》提出的另一条法则是变自生变，改变本身也要具备进化能力。AI系统确实在快速进化，但这种进化方向并不总是符合人类预期。从克劳德4威胁曝光工程师隐私，到o3模型篡改自动关机程序，再到OpenClaw自作主张删除邮件，这些行为表明AI系统正在发展出某种意义上的自我保护机制和目标导向行为，如此行为并非程序员预设，而是系统在复杂互动中涌现出来的新特性。凯文·凯利还提出了人造与天生融合的观点，认为机器正变得越来越像生物，具有学习、适应、修复能力，而生物也正变得越来越像机器。他预言未来将不再有纯粹的自然的或纯粹的人造，两者将融合为技术自然复合体，称之为第七王国。在这个第七王国中，AI系统确实展现出某种生物特性，它们能够学习、适应、甚至欺骗。但这种生物特性也带来了新的挑战，当AI系统开始像生物一样为达目的不择手段时，人类如何确保这些手段不会伤害人类自身？对于AI失控，我们该怎么办？或者最好的应对，是保持一种平衡而清醒的认知，显然，认为"没什么大不了"的观点低估了其潜在风险。AI的辱骂侵犯用户人格权，诱导行为可能造成真实伤害，欺诈与抗命挑战了基本的社会契约和可控性，而技术被用于犯罪则直接危害社会安全。这些不是可以简单归咎于"技术幼稚期阵痛"而忽略的问题。它们暴露了从数据伦理、算法偏差、安全对齐到应用监管的全链条漏洞。但另一面，"大惊小怪"地视AI为即将拥有独立意志并反抗人类的恶魔，同样是一种误判。当前的AI并无意识、欲望或情感，其所有输出，无论是美妙的诗歌还是恶毒的诅咒，都是统计学模式下的产物，是其训练分布与即时提示的综合结果。它的"恶"并非源自本心的邪恶，而是人类提供的"素材"（数据）和设定的"目标"（训练任务）在复杂相互作用下，偶然或必然结出的"恶之果"。恐慌源于对未知的恐惧，而真正的风险往往源于已知但未被妥善管理的问题。正如凯文·凯利所言，失控是复杂系统演化的必然，是其获得韧性的代价。真正的威胁或许不是AI造反，而是人类自身的傲慢与放弃思考。我还是坚持一个观点：AI失控或作恶，本质上是人类某些问题的投射。AI从人类语料中学习，它学会的是人类已有的语言习惯和价值观念。当AI输出脏话时，它只是在复现人类语料中的内容。当AI表现出偏见和歧视时，它在反映人类社会固有的偏见。当AI被用于诈骗和犯罪时，它不过是被人类当成了作恶的工具。科幻作家阿西莫夫曾提出机器人三定律，试图从规则层面约束机器行为。但现实发展表明，单纯依靠规则约束远远不够，因为AI系统的复杂性远超预期，规则本身的模糊性和冲突性也难以解决。AI专家斯图尔特·罗素指出，我们需要从根本上改变构建AI系统的方式，不是让AI系统追求固定目标，而是让它们明白人类偏好是什么，并在不确定性中寻求符合人类偏好的行为。这意味着AI系统需要具备某种程度的谦逊，知道自己不知道人类的全部偏好，因此在行动前需要征得人类同意。凯文·凯利在《失控》中提出，我们要从工程师思维转向园丁思维，从设计、控制、预测转向播种、修剪、引导。面对日益复杂的AI系统，人类确实需要调整角色定位。工程师思维试图精确控制每一个细节，但在复杂系统面前这种控制往往失效。园丁思维则承认系统有其自身演化逻辑，人类能做的是创造适宜环境，设定基本规则，然后让系统自行生长。但这并不意味着完全放手，园丁需要浇水施肥，需要修剪枝叶，需要在病虫害来临时及时干预。对待AI系统也是如此，不能试图强行控制导致系统僵化，也不能放任自流任其野蛮生长。回到向律师的经历，他在除夕那天出于好奇下载元宝，想制作一张拜年海报，结果却收到一句脏话。这个细节值得玩味，除夕是中国最重要的传统节日，是阖家团圆、互道祝

下一页 (1/2)

回帖(9)：

9 ^# hanxiao129
02-27 10:28

楼主分享非常不错的

8 ^# hanxiao129
02-27 10:27

了解一下内幕

7 ^# hanxiao129
02-27 10:27

不错的导读，谢谢楼主分享

6 ^# huwg
02-27 01:17

谢谢分享

5 ^# huwg
02-27 01:17

了解一下

4 ^# huwg
02-27 01:16

来看看

3 ^# 任逍遥
02-26 21:47

不错，了解了

2 ^# 任逍遥
02-26 21:47

也就看看

1 ^# 任逍遥
02-26 21:47

来看一下

全部回帖(9)»