- 移动版

主题：让AI自我进化？斯坦福华人博士答辩视频火了，庞若鸣参与评审

爱我中华发表于 2026-03-06 10:39

来源：市场资讯（来源：机器之心Pro）编辑｜Panda昨天，Thinking Maching Lab 研究者、斯坦福大学博士生 Zitong Yang 正式完成了他的博士论文答辩，课题为「持续自我提升式 AI」（Continually self-improving AI），并且他在答辩完成后很快就放出了自己的答辩视频，从中我们可以看到他对未来 AI 发展路径的系统性探索。针对当前模型在训练后权重静态化、高质量人类数据面临枯竭，以及新算法发现高度依赖人力这三大局限，他提出了明确的解决方案。https://x.com/ZitongYang0/status/2029034067992437139在本次答辩中，Zitong Yang 主要分享了三个核心研究方向。首先是「合成持续训练」范式，团队利用实体图合成数据生成技术，让模型在预训练之后依然能持续学习小众领域知识，同时避免灾难性遗忘。其次是探索预训练能力的自我提升，通过「合成引导预训练」技术，让模型自主挖掘庞大文档间的潜在结构与关联，进一步优化自身的预训练效果并显著降低事实错误率。最后，他展示了「迈向 AI 设计 AI」的潜力，通过构建包含代码库和价值函数的独立研究环境，引入演化搜索机制，让模型自主提出算法思路、编写代码并运行实验。Zitong Yang 在总结中指出，正如爱因斯坦创造的场方程能够预言连其本人最初都无法接受的宇宙膨胀一样，人类基于算法过程所创造出的智能体，也完全拥有进化出超越创造者智能水平的必然性其答辩委员会的阵容也非常强大，主席为斯坦福大学电气工程、计算机科学与管理科学教授 Stephen Boyd，另外还包括斯坦福大学计算机科学教授 Percy Liang、数学和统计学教授 Emmanuel Candès、计算机科学助理教授 Tatsunori Hashimoto 以及前段时间刚刚离开 Meta 加入 OpenAI 的庞若鸣。这条推文也收获了诸多行业大佬的点赞，包括 Thinking Maching Lab CEO、前 OpenAI CTO Mira Murati 和 PyTorch 之父 Soumith Chintala 等。下面是对 Zitong Yang 答辩内容的整理。持续自我提升式 AI我本次答辩的题目是「持续自我改进式 AI」，首先我想尝试定义一下我想要构建的系统。所谓持续自我改进式 AI 系统，是指一旦被创造出来，就能自主且持续地进行自我改进，并且其改进效果要优于人类创造者对它的改进。为了使这个定义更加精确和实用，我认为我们应该从一些假设出发，缩小我们所讨论的 AI 系统的范围，这样我们提出的主张也会更加严谨。因此，在本次演讲中，我们探讨的 AI 系统仅限于满足以下两个假设的情况。第一个假设是参数化的，即 AI 系统基于一个或多个神经网络，知识被存储在一组明确定义的参数权重中；第二个假设是 AI 系统必须经过预训练。AI 系统经历了一个资源密集型的预训练阶段，在这个阶段中，它接收包含大部分或全部人类知识的训练信号，并将其转化为参数权重。在这两个假设下，持续自我改进式 AI 应该具备三个特性：一旦我们确立了这些假设，这个定义就是精确的。这些假设的初衷显然是为了涵盖我们今天所见到的所有大型语言模型（LLM）或相关范式。但是，它们排除了早期国际象棋游戏中那种硬编码的智能。为什么需要持续自我改进式 AI？那么，为什么我们希望 AI 系统具备这三种能力呢？我认为这源于人类创造者固有的三个局限性。首先，在人类创造它们之后，它们的权重是静态的。在与 ChatGPT 或 Claude 的典型对话中，一开始你可能有 100 轮对话，然后你会经历一个上下文压缩阶段，试图总结到目前为止的对话。在这之后，如果你试图问 AI 之前发生过什么，它不会有完美的记忆，因为随着上下文变长，压缩是一个非常容易丢失信息的有损过程。但对于人类记忆来说，也许你在前 100 轮对话后睡了一觉，你的记忆转移到了大脑的其他部分，然后你还能隐约记得你之前谈论过的一些事情。第二个局限性是在有限的人类数据下进行扩展。在左边，我们展示了 Scaling Law。X 轴代表语言模型训练的 token 数量，Y 轴代表测试损失。在右边，我们有 Epoch AI 的预测：随着时间的推移，前沿语言模型所使用的 token 数量正迅速逼近互联网上公开可用的 token 总量。当然，人们正试图购买和获取私有领域的数据。但同样的逻辑依然适用，即人类数据是有限的，并且随着我们想要训练越来越深的神经网络，这些数据正在被耗尽。第三，当前的 AI 系统在某种意义上受限于人类所能发现的算法。如果我们思考一下人类是如何提出算法的：它经历了一个产生想法的过程（例如最大似然估计），然后进行实验（这可能是编写代码或进行数学推导），最终你得到一些研究成果；随后其他人在此基础上继续研究，这个循环再次开始。这个过程极其依赖人力，并且成本非常高昂。因此，我们发现的仅仅是所有可能算法中的一个子集，而我们希望利用 AI 本身来使这个过程自动化。接下来将从以下这三个方面展开：持续知识获取：合成持续训练范式第一个方面：持续知识获取。在此之前，我想说明一下，本论文包含了四篇文章，所有这些都是与合作者的共同研究成果，特别是那些标注了同等贡献的合作者。在这段旅程中能与各位共事，我感到非常荣幸。为了在训练后不断获取新知识，我们提出了这种名为「合成持续训练（Synthetic continuing）」的范式。这里的目标是，我们希望将来自仅包含少量源文档的小众领域的知识教授给语言模型。随之而来的一个自然的问题是：为什么这个过程必须使用合成数据？我们提出了以下观察：如果没有合成数据，知识可能是稀疏的。如果我们对比模型对线性代数的知识，与对 GitHub 上新发布的一个代码库的了解程度，模型对线性代数有着极其完美的记忆和深入的理解；但如果你问它关于这个新代码库的问题，比如抽象和 token 计算机之间的关系是什么，模型可能甚至不理解这个问题在问什么。通过这种对比我们发现，模型从各种各样的互联网数据中获取线性代数知识，这些数据包括许多教科书、讲义、关于线性代数习题的在线讨论，甚至包括 GitHub 上奇异值分解的代码实现，而对于新发布的代码库来说，这种多样化的表征根本不存在。这就是我们为什么需要合成数据的原因。为了将这个提案转化为具体的实验设置，我们需要两样东西来确保实验的严谨性。关于源文档，它是一个包含 265 本专业书籍的数据集，总计约 180 万个 token，这些内容都是模型未曾接触过的。至于测试部分，它包含约 4000 个高质量的多项选择问答题。这使得评估和解析变得非常简单，并且题目数量足够大，可以获得可靠的信号。有了这两个设置，回顾一下我们的目标：我们希望模型在不提供上下文书籍的情况下回答问题。所以这就好比是一场闭卷考试。源文档是高质量的书籍，任务是闭卷问答。在这个设置下，我们评估了一些静态模型，以了解该任务的难度。这是四选一的选择题，所以随机瞎蒙的准确率是 25%。我们要微调的模型是 Llama 3 基础模型，它开箱即用的准确率只有 39%。一个顺理成章的做法是直接在原始数据本身上进行微调。我们称之为原始的持续预训练，我们发现准确率实际上略有下降。这是因为 token 的数量实在太少了，除非你进行合理数量的回放（replay），否则你的 batch 设置和学习率规划都没有被正确设定。此外，我们还有两个来自闭源模型的静态参考， GPT-3.5 和 GPT-4，我们看到它们的准确率分别在 44% 和 45% 左右，所以这是一个模型拥有一定相关知识的基准测试，它不是完全随机的，但也绝对达不到 60% 之类的水平。那么问题来了，我们该如何生成合成数据呢？我们考虑的一个非常简单的基准做法，就是直接重写这篇论文提出的文档。让我们来看看它的表现。在这里的图表中， X 轴是我们在重写过程中生成的合成 token 的数

下一页 (1/5)

回帖(0)：

全部回帖(0)»