近几年,AI 的飞速发展深刻重塑了多个行业,也被视为下一轮技术革命的核心引擎。然而进入 2025 年,随着头部企业部分承诺落空、关键技术突破放缓、企业级应用推进受阻,AI 行业开始显现出明显的“降温”迹象。站在 2025 年末回望,AI 究竟走到了哪一步?本文将从认清大语言模型(LLMs)的内在局限、破除“AI 万能”的技术迷思、辨析产业泡沫的真实成因,以及回到技术长期演进路径四个视角出发,尝试为 AI 的真实价值与发展边界提供一种更为理性的判断。
撰文 | Will Heaven
(图源:MIT TR)
对 AI 产生一些幻灭感在所难免。
2022 年末,OpenAI 发布了名为 ChatGPT 的免费网页应用,它改变了整个行业的走向,也改变了若干个世界经济体的运行轨迹。数以百万计的人开始和电脑对话,电脑也首次开始有了回应。由此,我们开始对 AI 抱有更多的期待。
而后,科技公司为了保持领先而竞相冲刺,推出一款又一款各擅胜场的竞品。语音、图像、视频,每一次更新都是青出于蓝而胜于蓝。在这种不间断的比拼中,AI 公司把每一次产品上线都包装成重大突破,进一步强化了人们的普遍信念:这项技术会越来越好。
AI 的鼓吹者告诉我们,进步是指数级的。他们晒出图表,标出我们相较去年的模型走了多远:看,曲线一路向上。生成式 AI 似乎无所不能。
但 2025 年却成了清算的一年。
首先,顶级 AI 公司的掌舵者许下了他们兑现不了的承诺。他们告诉我们,生成式 AI 会取代白领劳动力,开启富足时代,带来科学发现,并帮助找到新的疾病疗法。至少在全球北方国家,蔓延于各个经济体的错失恐惧(FOMO)让 CEO 们撕掉旧剧本,急着加入这场行动。
也就是从那时起,光环开始褪色。尽管这项技术被包装成一种“万能多功能工具”,能够重塑陈旧的业务流程、削减成本,但今年发表的多项研究显示,企业并没有让那点“AI 仙尘”真正发挥魔力。
来自多个来源的调查与追踪数据,包括美国人口普查局与斯坦福大学,都发现企业采用 AI 工具的势头正在放缓。而即便尝试了这些工具,许多项目也长期卡在试点阶段。
如果整个经济体缺乏更广泛的投入与认可,人们很难看出,这些大型 AI 公司要如何收回它们在这场竞赛中已经投入的惊人资金。
与此同时,核心技术的迭代也不再像从前那样带来阶式跃迁。
最典型的例子莫过于 8 月 GPT-5 的翻车式发布。在极大程度上造就了本轮 AI 繁荣的 OpenAI,原本要推出其全新一代技术,为此,OpenAI 连续数月为 GPT-5 造势。CEO 山姆·奥特曼甚至夸口称它是“任何领域的博士级专家”。
还有一次,奥特曼不加评论地发了一张《星球大战》“死星”的图片,OpenAI 的铁粉把它解读为“终极力量”的象征,仿佛在说:马上就来。人们的期待被推到极高。
然而当它真的上线时,GPT-5 看起来像是与之前相同的东西又发布了一次。随后出现的,是自三年前 ChatGPT 初次登场以来最大的一次氛围转向。
AI 研究者、知名 YouTuber 扬尼克·基尔彻(Yannic Kilcher)在 GPT-5 发布两天后的视频中宣布:“突破边界的时代结束了。AGI 不会到来。我们看起来已经进入了大语言模型的三星 Galaxy 时代。”
很多人(包括我)都把它类比为手机。在差不多十年的时间里,智能手机是全球最令人兴奋的消费科技。如今,苹果或三星发布新机时几乎不会掀起太大波澜。铁粉会细看每一点小升级,但对大多数人来说,今年的 iPhone 看起来、用起来都和去年的差不多。
生成式 AI 也到了这个阶段吗?如果是,这算问题吗?当然,智能手机已经成为“新常态”。但它也确实改变了世界的运作方式。
需要承认的是,过去几年确实充满了许多激动人心的时刻。从视频生成模型质量的惊人飞跃,到所谓推理模型的解题能力,再到最新编程与数学模型在世界级竞赛中的胜出,这些都是真实发生的。
但这项非凡技术也才走红短短几年,从许多方面看仍处在实验阶段。它的成功背后也伴随着诸多重要的限制条件——也许我们需要重新调整预期。
这里要小心:从“热炒”到“反热炒”的摆钟也可能摆得过头。仅仅因为它被过度兜售就否定这项技术,是轻率的。
当 AI 没能回应期待时,人们的本能反应往往是说“进展撞了南墙”。但这误解了技术研究与创新的运行方式。进步从来都是偶发的,时快时慢。墙是可以翻过去的,也可以绕过去,甚至可以从下面挖过去。
不妨把视角从 GPT-5 的发布上挪开一点。在它之前的几个月里,OpenAI 刚刚密集推出了一系列相当出色的模型,包括 o1 和 o3(开创性的推理模型,让行业见识到一种全新范式),以及再次抬高视频生成门槛的 Sora 2。在我看来,这听起来不像是撞墙。
AI 的确很强。看看 Google DeepMind 的新图像生成模型 Nano Banana Pro,它能把一本书的一章内容变成信息图,还能做更多事情。它就这么免费地躺在你的手机里。
但你还是忍不住会想:当“惊艳感”消退后,还剩下什么?一年后或五年后,我们会如何看待这项技术?我们会认为它值得付出如此巨大的成本吗?无论是金钱成本,还是环境成本。
基于这些问题,下面是看待 2025 年末 AI 现状的四种方式。这是一场迫切需要的热潮纠偏的开始。大语言模型不是全部
从某种意义上说,需要纠偏的是围绕大语言模型的热潮,而不是 AI 整体。如今已经很明显,LLM 并不是通往通用人工智能(AGI)的入口。AGI 是一种假想技术,有人坚称它终有一天能完成任何人类能完成的(认知)任务。
即便是像伊利亚·苏茨克维(Ilya Sutskever)这样的 AGI 传道者,如今也开始强调 LLM 的局限性。苏茨克维是 AI 初创公司 Safe Superintelligence 的首席科学家兼联合创始人,曾任 OpenAI 首席科学家兼联合创始人,并深度参与了 LLM 的创造。
苏茨克维在 11 月接受德瓦克什·帕特尔(Dwarkesh Patel)采访时说,LLM 很擅长学会做许多具体任务,但它们似乎并不会学到这些任务背后的原理。这就像学会解一千道不同的代数题,和学会解任何代数题之间的区别。
苏茨克维说:“我认为最根本的一点是,这些模型在泛化能力上不知为何明显比人类差得多。”
LLM 的语言能力太有说服力,因此人们很容易想象它无所不能。这项技术模仿人类写作与说话方式的能力令人惊叹。而我们天生就倾向于从某些行为方式中看见“智能”,不管它是否真的存在。换句话说,我们造出了具有人类行为的机器,于是很难不去相信它背后也有一个类人的心智。
这可以理解。LLM 进入主流生活也就短短几年。但在这段时间里,营销者利用了我们对技术真实能力还不够稳固的判断,不断抬高预期、加速炒作。随着我们与这项技术共处、对它理解加深,这些预期也该回到地面。AI 不是解决一切问题的速效药
7 月,麻省理工学院的研究者发表了一项研究,成了 AI 末日论者最常引用的支柱论据。其最醒目的结论是:高达 95% 的企业在尝试使用 AI 后发现其“零价值”。
其他研究也呼应了这种总体判断。11 月,自由职业者在线市场平台 Upwork 的研究者发现,由 OpenAI、Google DeepMind 与 Anthropic 的顶级 LLM 驱动的智能体,单靠自己无法完成许多看似直接的职场任务。
这与奥特曼的预测相去甚远。他在 1 月的个人博客里写道:“我们相信,在 2025 年,我们可能会看到第一批 AI 智能体‘加入劳动力队伍’,并实质性改变公司的产出。”
但那项 MIT 研究中常被忽略的一点是,研究者对“成功”的衡量很狭窄。所谓 95% 的失败率,统计的是那些尝试部署定制 AI 系统,但在 6 个月后仍未能

