- 移动版

主题：被AI吞没的知识、语言和我们｜编辑部聊天室

爱我中华发表于 2025-11-30 13:34

第190期主持人徐鲁青

过去一年里，AI不再止于技术新闻。胡彦斌、易梦玲的“AI视频”引发争议，出版行业出现冒名写作，评论区里混入疑似AI生成的段落……生成式内容正以很快的速度进入文学、影视、以及普通人的日常表达。
在上一期的文化周报里，写到剑桥大学的一项最新研究显示，超过半数已有作品出版的英国小说家认为，AI最终可能完全取代他们的工作，39%的受访者的收入已受到影响，市场上也出现更多AI写作、甚至冒名出版的书籍。
我们作为写作者，也在经历同样的变化。你会用AI写稿吗？还是在选题和查资料时用上它？它们都改变着我们的写作方式。
另一方面，AI的扩张也在放大数字世界里的知识差异。没有被系统记录的经验、弱资源语言，都更容易被排除在模型之外。另一项来自康奈尔大学的研究也指出，自ChatGPT上线后，很多人把AI当作新知识入口，但模型本身深受英文语料的影响，知识分布并不均衡。而且在未来，当模型开始学习模型生成的内容，文化的想象力会不会被固定在某几种模板里？
这期我们来聊聊，过去一年里，AI怎么改变了我们的创作方式？对创作者而言，这场变化意味着什么？图片来源：视觉中国

AI在工作流里的悖论

王鹏凯：我不太信任AI的一些功能。比如说它给我查资料，或者修改我的稿件，我觉得改出来的中文稿件会非常生硬，文体上也会有点奇怪。
我有点老派。前两天去一个非虚构工作坊，听他们聊到现在很多媒体工作者至少都会用AI来搜集资料。但我还是对自己的信息检索能力比较有信心，而且之前有试过，我自己找不到的材料，AI基本上也找不到。
徐鲁青：这一年我的搜索方式发生了挺大变化。比如我现在用Google的时候，会越来越少去打开主页。因为搜索引擎会在前面出现AI生成的简略内容，我一般就直接看那个内容。
我看方可成写的一篇文章，他说未来媒体机构的流量会被AI剥夺得越来越少。因为现在大家用AI看信息，即使附上了网页的链接，读者也很少真的会点进去看里面更细节的信息。
王鹏凯：但是不是我们已经习惯了把什么东西都喂给AI，现在欧洲有很多内容创作者抵制AI，因为自己的材料未经允许就被放进AI的语料库里训练，觉得这是很大的伦理问题。
我参加过一节人类学的方法课，有一个外国的老教授，胡子花白，坐在前面，很有兴致地教我们使用一款我从来没听说过的手动转录田野录音的软件。他讲了大概半个小时，一步步地告诉我们这个软件怎么用。讲完之后，一个同学问出了我们所有人都想问的问题：你为什么不用类似讯飞这样的软件？它可以直接帮你转成文字嘛。
老教授说，你怎么确定你上传的这些访谈信息只有你自己能看到？在田野或者采访工作里，有一个前提就是你已经向对方承诺这些东西是私下的，你要保护他的隐私。但从伦理上来说，如果你把它喂给AI，你不知道谁会看到，它也可能变成语料库的一部分。
我觉得虽然这是一个很老派、传统手艺人式的观点，但它其实也是一个提醒。如果我们很信任地把所有采访材料、稿件都发给AI，也是一个需要反思的问题。图片来源：视觉中国
徐鲁青：另一个问题是，就算我们在个人层面上不想把自己写的东西喂给AI，难道它就真的不会得到吗？我们发在任何地方，它都有能力抓取，个人创作者是完全失权的。平台得到了我们的内容，就有权力决定这些内容的流向。
王鹏凯：英国去年有一个法案，当时在议会争议很大。它的逻辑是，作家必须主动提出“我不同意被AI训练”，不然就默认你同意。这个引起了很多作家反对，比如石黑一雄他们就提出批评。最后这个法案因为阻力没有通过。
徐鲁青：我觉得还有另一个问题，如果一个信源不愿意给GPT提供开源数据库，它的可见性会变低。这也是它商业考量的一部分。
比如现在有一个灰色地带，类似AI广告投流。你在网上搜一个“我最近要打什么疫苗比较好”，AI会推荐你某些公司，有一些公司就会去给AI“做数据”，让AI更大概率吐出他们公司的名字，推荐他们公司。这个就像最早百度刷置顶广告一样，数据是可以被刷的。所以如果我们拒绝让它提取我们库里的内容，我们的内容会变得越来越不可见，越来越少的人点进去。
王鹏凯：这个困境是双重的。一方面我们前面在讲，作为内容创作者，我们想保护自己的作品，不被AI使用。但另一方面，又会作为使用者去抱怨AI提供的信息不准确，它不准确的前提很多时候就是因为它的语料库不够大、不够全。当地时间2025年11月5日，美国纽约，纽约证券交易所（NYSE）的惠普公司标识。在人工智能热潮中，一些涨幅最大的股票在短暂回调后，买家再次入场。（图片来源：视觉中国）

知识的等级制度如何被AI进一步固化？

李欣媛：当我们进入数字化时代，或者我们需要用一些产品的时候，这些东西不可避免地会被后台抓取信息。这是数字时代的一个必然情况。其实更具象地反映了知识领域的权力失衡。之前看了《卫报》一篇文章，它讲的是AI之后的知识性的崩塌。
早期互联网是由英语语料组成的，当下的数字库又是基于网络内容训练的，这就导致我们现在对于知识的理解，或者其他领域的见解，会以英文世界为主体。其他语言的语料会被轻视、忽视。
OpenAI自己说ChatGPT已经成为全球广泛使用的工具，尤其在低收入和中等收入国家增长迅猛，其实这意味着那些生活水平没那么高、获得知识没那么多的人，会更依赖这些工具。而在重建他们自己的知识体系时，反而是用“外来的信息”覆盖他们自己的语言和世界。我觉得这个现象非常讽刺。
AI需要逻辑学习模型，如果你不断给它加入某些信息，它就会以那个为主体、为主要观点。比如我说“世界上最受欢迎的食物是披萨”，这种话出现多了，它就会变成常识、主流观点。你再问它，它不会说那些很小众但很好吃的食物，它只会说披萨、可乐、汉堡之类的。2023年2月16日，陕西省榆林市清涧县，工作人员在进行数据标注。数据标注为人工智能产业中开发机器学习模型的一环。清涧县数字就业中心成立三年多来，通过培训当地女性、返乡年轻人等做数据标注师，助力乡村女性在本地就业。（图片来源：视觉中国）
我印象中《卫报》的这篇文章里有一句话非常启发我：
“通过强化这些等级制度，人工智能时代最可能抹杀的是几个世纪以来不断演进的理解体系，使后代与大量未被编码却依然是人类认知方式的洞见和智慧隔绝开来。因此岌岌可危的不仅仅是知识的呈现方式，更是知识本身的韧性和多样性。”
丁欣雨：说回鹏凯之前讲到他要用GPT当英语老师。我正好看到一个研究，说人工智能有时候会错误地把大量托福考试作文，也就是英语非母语写作者的文章标记成AI生成的。还有一个研究是说，在面对黑人说话时，自动语音识别系统的错误率几乎是面对白人时的两倍。而且这些错误不是由于语法，而是语音和韵律特征，即口音导致的。
王鹏凯：这其实是学界长期讨论的“算法歧视”问题。不只是你刚刚讲的口音。包括之前有统计说，算法在识别黑人和白人的照片时差异很大，因为语料库本身就以白人为主。在这种情况下少数族群语料越少，算法就越偏向白人群体。
徐鲁青：我最近采访《投喂 AI》的作者，他也提到欣媛刚刚讲的现象，他把这种现象叫做“数字殖民主义”，意思是GPT和大规模的AI普及，会更广泛地向其他地区灌输某一种强势知识。披萨是欧洲很流行、后来全球化传播的食物，我们所有人都知道披萨。但它就不会说擂辣椒皮蛋，不会说一个本地食物，因为那些不在全球化的强势知识体系里。
但另一方面，有个很有趣

下一页 (1/2)

回帖(8)：

8 ^# huwg
12-01 01:10

谢谢分享

7 ^# huwg
12-01 01:10

了解一下

6 ^# huwg
12-01 01:10

来看看

5 ^# srwam
11-30 21:28

也是无奈

4 ^# srwam
11-30 21:28

了解一下

3 ^# srwam
11-30 21:28

来看看

2 ^# hanxiao129
11-30 16:50

谢谢楼主分享

1 ^# hanxiao129
11-30 16:42

了解一下内幕

全部回帖(8)»