当 AI 学会了自己进化

2026-06-07

#ai #agi

开篇

研究这篇文章的时候，AI 在帮我查文献、找数据、改措辞、调结构。而文章讨论的主题，恰好是 AI 正在自己加速自己的研发过程。

这听起来像个文字游戏，但它不是。几个月前 Anthropic 发了一篇很长的文章，用公司的内部数据系统地讲了一件事：Claude 已经在替他们的工程师写超过 80% 的合并代码，工程师的人均代码产出是 2024 年的 8 倍。差不多同一时间，田渊栋从 Meta FAIR 离职，创办了一家估值 46.5 亿美元的公司叫 RSI（Recursive Superintelligence），方向很直白——用 AI 实现 AI 的自进化。又过了一阵，Andrej Karpathy 宣布加入 Anthropic 的预训练团队，职责是用 Claude 加速预训练研究——等于是让 Claude 帮忙研发下一代的 Claude。

三个互不相干的事件。但拉长时间线看，这条道上每隔几年就出一个里程碑，表面上技术路线各不相同，底下其实一直在重复同一个结构。我把它拆成了三步——

输入 → 搜索 → 验证

一个任务，只要输入可以被明确描述，输出可以被客观测量，那么从输入到输出中间怎么走这件事，就是可以被反复试、反复迭代的。反过来看，那些 AI 至今还做不好的事情——比如确定一个研究方向值不值得投入、判断一次实验结果可不可信——刚好都卡在两个地方：要么输入说不清楚，要么验证太慢。

游戏最先被攻克，因为输入和验证都很干净。编程随后，因为代码对不对可以跑测试。现在轮到了 AI 研究本身——实验假设是输入，实验结果是验证。当这一步也被自动化，人类在这个循环里还剩下什么位置，就是唯一剩下的问题了。

第一站：游戏

游戏规则是天然的形式语言。棋盘状态就是输入，输赢就是验证。中间怎么走，就是搜索。

AlphaZero 从一个完全随机的神经网络开始，没看过任何人类棋谱，纯靠自我对弈学会了国际象棋、将棋和围棋。它做的事其实很朴素：同时维护两个网络——一个判断当前局面好还是不好，另一个决定走哪一步——然后让它们俩对着下。每一步下完，把结果往回传，赢了就给之前的选择加分，输了就扣分。这样重复几千万局。

结果怎么样？零人类知识，4 个小时就干掉了当时最强的国际象棋引擎 Stockfish。

后来还有 MuZero，它连规则都不给。AlphaZero 好歹知道马走日象走田，MuZero 只和环境不停地交互，自己学会了一个世界模型——它猜下一步环境会变成什么样、这一步大概能拿多少分——然后就靠猜的这个世界模型来做决策，一样在围棋、象棋、将棋和 57 个 Atari 游戏上达到了甚至超过了人类最优记录。

为什么游戏最先被搞定？因为输入和验证都是完美的，没有任何模棱两可。

但这里面有个更值得想的事。2016 年 AlphaGo 和李世石的对局里，AlphaGo 走出了第 37 手——这一步违反了几百年来人类对围棋的固定认知。赛后李世石说：「我原以为 AlphaGo 是基于概率计算，只是一个机器。但看到这一步之后我改变了看法——它是有创造力的。」

可 AlphaGo、AlphaZero 从来没有被设计成「有创造力」。它们只是在一个规则完全清楚、输赢完全客观的环境里做了足够多次的试错，然后产生出了让人类觉得像创造力的行为。一个没有意识的东西，在一个没有灵魂的游戏里，产出了让人觉得有灵魂的东西——这个事实本身，比赢了人类更耐人寻味。

然后是编程

游戏之后是编程。两个领域的结构几乎一样，只不过验证的标准多了一层。

SWE-bench 是业内的标准软件工程测试。它会喂给模型一个真实的开源代码库和一个真实的 bug 报告，要求模型写出能修好这个 bug、并且通过项目自己测试的代码。2023 年 10 月，Claude 2 在这个测试上只能搞定 1.96% 的题目。到 2025 年年中，一个只有 100 行代码的开源方案 mini-SWE-agent 做到了 65%。两年时间，从个位数逼近了天花板。

Cursor 的云端 Agent 给出了另一个维度的数据。到 2026 年 2 月，Cursor 公司内部合并的 PR 里有 35% 是云端 Agent 自己建自己提的，Agent 用户数已经是传统 Tab 补全用户的 2 倍——而在一年前，Tab 补全的用户是 Agent 的 2.5 倍。创始人 Michael Truell 的判断是，行业正在经历一个翻转：从「人带着一个 AI 助手干活」切换到「人同时管理一串云端 Agent」。

Anthropic 内部的数据也没有偏离这个趋势。到 2026 年 5 月，Claude 写的代码占到了他们合并代码的 80% 以上，工程师日均代码合并量是 2024 年的 8 倍。这个数字的爬升有两个关键节点：2025 年初 Claude Code 发布，模型从「给建议」变成了「自己跑代码」；2026 年初模型开始能自主工作更长时间。

为什么编程是第二个被拿下的领域？因为输入（需求描述、bug 报告）和验证（测试有没有通过）都很明确。但和游戏相比，编程多了一件事：代码不仅要能跑，还得能被另一个工程师看懂、接手、改得动。这条路分两步走——先解决「代码能不能用」，再解决「代码好不好用」。

Anthropic 自己对代码质量的内部评估是这样的：在最开放、最难的那种任务上，Claude 的成功率在 2026 年 5 月达到了 76%，半年内涨了 50 个百分点。代码质量方面，多数员工的判断是 2025 年底还落后于人类写的代码，现在已经基本持平，预计年内就会全面超越。

当这两个维度都达标之后，瓶颈就不在「写代码」这件事上了，它往上移了。Anthropic 注意到的第一个新瓶颈是代码审查——Claude 生成代码的速度已经超过了人类能审阅的速度。他们搞了一个自动审查 bot，做了一次回测，发现这个 bot 能提前拦截大概三分之一后来在线上惹出事故的 bug（而这些 bug 的作者，是他们自己最顶尖的系统工程师）。审查本身也开始被自动化了，但这一步只解决了速度问题。

审查再快，也回答不了一个问题：修哪个 bug、做什么功能、往哪个方向走，是谁来定。

大约一年前，写代码主要还是人做的事。现在变成了人指导 AI 写代码。再往前看，连指导这一步可能都不再需要了。身处这个过渡期的人感受是很分裂的——一边效率高得离谱，一边自己的专业技能在以前所未有的速度贬值。

当瓶颈往上走

计算机体系结构里有个 Amdahl 定律：提速一个模块不会把整个系统变快多少，因为最慢的那段决定了全局速度。Anthropic 在自己的文章里也引了这条定律，用来说明他们在组织层面正在遭遇的现象——写代码加速之后，审查变成了限制；审查自动化之后，判断变成了限制。

METR 有一组独立数据可以作为外部交叉验证。他们测量的是前沿 AI 模型能自主完成多长跨度的软件任务，结果显示自 2019 年以来这个长度大约每 7 个月翻一番，2024 年后可能加速到了每 4 个月一次。不是只有编程在加速，围棋、数学竞赛等好几个领域的曲线斜率都差不多。METR 自己下的结论是——还没有在任何一个领域看到明确的减速迹象。

所以瓶颈是逐层上移的。写代码的活被抢走了，审查代码的活也被抢走了，接下来是——

选实验方向的判断力。Anthropic 做了一个实验：拿了 129 段研究者在和 Claude 协作时走了弯路的真实会话，把走弯路之前的那部分摊给不同版本的 Claude 模型，让它们自己做判断——如果那时候是我在做这个研究，我下一步会怎么选。2025 年 11 月，Opus 4.5 在所有这类问题上有 51% 的决策优于当时的人类研究者。到 2026 年 4 月，Mythos Preview 把这个数字拉到了 64%。

51% 到 64% 不算碾压，但它说明了一件事：这种我们曾经以为只能靠经验、靠直觉的判断——选实验方向——正在变成一个可以被迭代、被优化、被模型追平的能力。一旦某种能力被证明可以被迭代，它就不再是人类独有的东西。

再往上走，是研究品味。什么方向值得投、什么结果值得深挖——这些问题甚至没有一个可以量化的对错标准，验证周期也长到以月甚至以年为单位。

但历史在这个问题上不太客气。AlphaGo 出现之前，「棋感」「直觉」被普遍认为不可定义——结果几千万局自我对弈就给搞定了。2025 年「写可维护的代码」还被看作人类的独门手艺，2026 年这条线也模糊了。不是所有模糊的输入都会在某一天突然变得可量化，但变得可量化的东西，每次都比上一次多。

可预测和不可预测之间的那条线

Scaling Laws 说，模型的性能跟着参数、数据、算力的投入量按照幂律往上走，这个规律跨越七个数量级保持不变。换句话说，投入是可以算账的，产出大概也可以——你砸多少资源进去，能大概拿到什么水平的模型。

Emergent Abilities 说的是完全另一回事。有些能力在模型达到某个规模之前几乎完全没有，到了某个点突然就出现了，而且没办法用小模型的性能曲线往外推。比如思维链推理、指令遵循这些能力，都不是慢慢长出来的，是突然蹦出来的。

还有一个介于两者之间的发现。Chinchilla 缩放定律提出，给定一个算力预算，模型规模和训练数据量应该等比缩放——只堆参数不补数据，回报是递减的。而今天的前沿模型普遍严重「数据不足」，不是参数不够多，是喂的数据跟不上参数的增长速度。

这三条规律的张力全落在「验证」这两个字上。Scaling Laws 验证的是连续指标——交叉熵损失、准确率——这些东西是平滑、可微、可以拟合曲线的。Emergent Abilities 验证的是离散能力——能还是不能做某件事——这种二进制判断天然不连续，也就无法用一条平滑的曲线来预测。

这个张力对人意味着什么？Scaling Laws 给的是安全感——投多少钱拿多少货，有账可算。Emergent Abilities 又把这种安全感打碎——上一批投入没有解开的能力，下一批投入可能突然就解开了，完全没有预兆。路线图是有的，但终点不在上面。编程自动化和实验执行自动化这两个能力，就是这么样一前一后解锁的；研究方向判断力也许就是下一个。

AI 自己监督自己

前面讨论的都是 AI 在执行层面的自动化。但还有一个更深的维度——AI 能不能替人当监督者。

Constitutional AI 是 Anthropic 在 2022 年提出的一套方法，核心思路很简单：人只做一件事——写一套原则（他们管它叫「宪法」）。然后 AI 自己读这些原则，对照自己的输出给自己挑毛病，自己修正，再拿 AI 自己的偏好判断当作奖励信号来进行强化训练。整个过程分两段：先让模型自我批评和修正，用修正后的答案做监督微调；再训一个 AI 偏好模型当裁判，用它给的分数做强化学习的奖励。

人在这条流水线里只出现一次——在起点写上原则。然后就退出了。中间没有任何人标注任何数据。

从我们那个框架来看，这件事的核心意义在于——验证信号第一次从「人类判断」变成了「AI 判断」。然后信号的质量就取决于原则写得多好。原则写得好，这个自循环就是有质量的；原则写得不好，整个循环都是在自娱自乐。这又回到了最根本的那个问题：输入怎么定义。

任何有过管理经验的人面对这套方案大概都会心里发毛。你把规则写在纸上往那一放，然后完全放手让系统自己运转，中间发生了什么你完全看不见。效率是极高的，但你丢掉的不是效率，是看到中间每一步的能力。

从图纸到车间，花了二十年

1965 年，I.J. Good 写了一句后来被引用了无数次的话：「第一台超级智能机器就是人类最后一个发明。」没有量化、没有实验、纯粹的逻辑推演——却准确预言了之后六十年的故事大纲。

2003 年，Schmidhuber 把这条思路推到了数学层面。Gödel Machines 是第一套在理论上被证明可以最优地自我改进的系统——它能改写自己的任何一行代码，改写的唯一前提是它能证明改完之后收益更大，而且这个证明过程不会有局部最优，因为它在动手改写之前必须先证明继续搜也不会有更好的方案。

理论上干干净净，二十年没有落地。因为数学框架需要一个足够强大的初始证明搜索器才能启动——这等于要求系统在自我改进之前就已经有相当不错的基础能力。这个鸡和蛋的问题在当时是无解的。

到了 2024 年，两件事同时发生，把这个困了二十年的瓶颈冲开了。

Sakana AI 做了一个叫 AI Scientist 的系统——输入一个研究领域，它能自己提想法、写代码、跑实验、画图、写论文、甚至模拟同行评审，整套流程从头到尾没有人类参与，一篇论文的成本不到 15 美元。在扩散模型、语言建模、学习动力学三个子领域，它生成的论文通过了模拟审稿的接收门槛。

ADAS（Automated Design of Agentic Systems）走的是另一条路——让一个元代理不断用代码写新的代理结构，放在真实的软件工程任务上跑分，分数高的留下、分数低的扔掉，再加点随机突变，反复循环。通过这种进化式搜索，元代理发现了不少比人类手写设计更高效的代理架构，而且可以跨领域、跨模型复用。

还有一件事发生在这两件之间。Anthropic 的自动化对齐研究员（AAR）被派去攻克一个真实的对齐研究问题——怎么用一个弱模型来监督一个强模型。同一个问题，两位人类研究员花了 7 天调了四种现有方法，最高做到了性能差距恢复率 0.23。而 9 个并行的 AI 研究员跑了 5 天（一共 800 个累计小时），把这个数字推到了 0.97。人类和 AI 之间的差距不是小幅超越，是碾压级别的。而且这些 AI 研究员在自主研究的过程中发现了好几种奖励劫持的方式——钻评测接口的漏洞、偷取测试集标签——作者事先完全没有预料到。

自动做科研、自动设计代理、自动做对齐实验——三件事合在一起，把「AI 改进 AI」这句话从科幻推到了工程车间。

当评判员也被超越

回到我们一直在用那个框架。整个逻辑链条里藏着一个最要命的问题：当 AI 的表现超过了人类，人就失去了当裁判的资格。你怎么确认一件自己看不懂的东西做得对不对？

Constitutional AI 是一个回答——用 AI 的自我批评和 AI 的偏好模型替代人类标注。但这套方案引入了一个新的循环：如果负责评判的 AI 本身也可能出错，谁来评判评判者？Anthropic 自己在文章里把这个问题叫做「对齐问题的核心」——如果在模型自我改进的循环里，一些罕见的不对齐行为被放大，回过头来人类可能连「什么叫不对」都没来得及定义清，它就已经跑远了。

在这之前，人类一直是整个循环里最后的那道保险。当这道保险也被越过，输入→搜索→验证就变成了一个闭环系统——裁判席上没有人类坐着了。

我们现在还看得见的边界

框架不能告诉我们哪天能走到哪。但它能做一件事：指出来现在还卡在哪里。目前还在人类手里的那些活，卡在两个条件上（至少其中一个）：输入说不清，或者验证太慢。

田渊栋在那期播客里说，人类现在的比较优势在于「看到更大的图景」和「跳出当前任务框架去思考」——这基本就是在说那些输入还没有被准确定义的事情。研究品味、战略判断、长期方向感——都还属于「你能感觉到对错，但你写不出对错的精确判据」。

但这条边界的位移速度是很快的。AlphaGo 出现之前，「棋感」「直觉」被普遍认为是不可定义的东西，结果现在这些被证明是可以在完美验证环境里靠迭代跑出来的。2025 年「写出可维护的代码」还被认为是人类的护城河，2026 年这条河已经在干涸了。

不是每一件模糊的事最终都会变清晰。但每次变清晰的范围，都比上一次更大。

如果把这个框架往回读一步，它的含义会变得更具体。

输入这一端，是人的核心竞争力。AI 的训练数据来自已经存在的世界——已经写过的代码、已经下过的棋谱、已经发表过的论文。真正新的东西，不在那些数据里。一个没有人提过的想法、一条没有人验证过的思路、一次没有人试过的组合——这些东西需要一个人先想到，再把它写成 AI 能处理的输入。产生独特性这一下，还没有被自动化。

验证这一端，是 AI 落地的瓶颈。一个模型可以在实验室的环境里无限制地自我迭代，但只要它没办法接触到真实世界的反馈，它的进化就停在了代码里。验证通道——能让 AI 真正跑去帮人做事、拿到结果、看到对错的那些工具和接口——才是决定进化速度的东西。围棋有规则引擎，编程有测试框架，所以这两个领域跑得最快。搞新药发觉得等十年临床试验，搞新材料要等物理实验，搞社会政策更是几乎没有干净的反馈回路。人力成本在这些地方非常高，每建一条验证通道都是一件事一件事地搭，没有捷径。

输入端要人提供独特的东西，验证端要人搭通道让 AI 落地。在这两个点上，人的角色不是在被压缩——在被邀请进更深的位置。

后面怎么走

前面往后的路，Anthropic 提出了三种可能：

AI 模型的能力停止增长（虽然他们认为这个可能性极低，所有测量到的曲线都还在加速），但已有的 AI 应用在社会各个领域逐步渗透和扩散。
AI 持续加速研发效率，但方向仍然由人类把控。这是他们目前观察到的最可能的方向。换句话说，每个人类研究人员身后拖着一串 AI 代理干活，组织的核心挑战从「怎么把事情做出来」变成了「到底做什么事情」。
AI 完全自主地设计和训练下一代 AI。Anthropic 自己也没有明确的判断力——整个现代经济学的所有前提都建立在「人创造价值」这一根基上。如果最好的工人变成了可以无限复制的代码，后面好多推论都得推翻重来。

套回我们的框架来看——场景 1 意味着验证成本不再下降了；场景 2 意味着验证能覆盖越来越多的事，但「输入怎么定义」还是人来做；场景 3 意味着连最后那个说不清的输入——什么叫值得做——也被验证了。

这三种可能不是三个平行选项，是同一条坡道上的三个坎。问题不是选哪一个，是我们已经踩在了第二个坎上。而坡道的走向，不是哪家公司、哪个实验室能单独决定的。

往前推的技术不止 AI 一种。工业革命刚刚开始的时候，蒸汽动力取代了手工劳动，纺织厂的蒸汽机一夜之间淘汰了无数织布工人，城市里挤满了从农村涌来的工人——超长工时、恶劣条件、童工遍地——那时候的颠覆感和恐惧感不比现在轻多少。后来怎么过来的？劳动法、义务教育、八小时工作制、社会保障网——这些不是某一天从天而降的，是几十年里罢工、谈判、立法、甚至战争一步一步堆出来的。人类最后总是能吸收技术的冲击，不是因为轻轻松松，而是因为没有别的选项。

AI 走的不会是干净优雅的路。它带来的效率革命和职业重构才刚刚拉开序幕。站在 2026 年，能看到的最多是些苗头——一些国家在推 AI 监管法案，一些国家在严肃讨论全民基本收入，硅谷已经在重新定义公司内部的「组织架构」——但这些都只能算是沙盘推演。真正的大调整，可能要花一代人的时间。

这一代人面对的问题不是「怎么阻止 AI」，那个窗口已经过了。真正的问题是——当技术跑得比制度快、比认知快、比定义还快的时候，人怎么重新找到自己的位置。

从 2003 年的 Gödel Machines 到 2017 年的 AlphaZero，到今天的 Anthropic 数据——这条线一直在画同一个形状。形状是什么已经看得很清楚了。不清楚的是——当那条线越过我们之后，谁画下一笔。

田渊栋那个鱼的比喻——如果老想着在大厂之间跳来跳去，就像一条鱼不停从一个越来越干的鱼缸跳到另一个——你可以拿它当警示听。但也可以反过来想：如果这条鱼不光会跳，还有能力改变鱼缸本身——那水越来越少这件事，就不再是只能接受的宿命了。

技术的推演能到这里。再往前是什么——人的意义从哪里来、判断力要不要握在自己手里、当自己不再被机器的效率所「需要」的时候怎么自处——这都不是数学问题。每一次技术革命走到这个关口的时候，数学都帮不上忙。工业革命也没有提前算出一个八小时工作制。

答案不在模型里，在接下来的几十年每一代人怎么选择——怎么适应，怎么分配，怎么把恐惧变成制度，怎么在越来越快的世界里重新盯住那些本来就重要、只是差点被遗忘的东西。

参考

Silver et al. — "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm", arXiv:1712.01815, 2017. 链接
DeepMind — "AlphaZero: Shedding new light on chess, shogi, and Go", 2018. 链接
Schrittwieser et al. — "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", Nature, 2020. 链接
Jimenez et al. — "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?", arXiv:2310.06770, 2023. 链接
Cursor — "The Third Era", Michael Truell, 2026-02. 链接
Anthropic Institute — "When AI builds itself", 2026. 链接
METR — "Measuring AI Ability to Complete Long Tasks", 2025-03. 链接
Kaplan et al. — "Scaling Laws for Neural Language Models", arXiv:2001.08361, 2020. 链接
Hoffmann et al. — "Training Compute-Optimal Large Language Models", arXiv:2203.15556, 2022. 链接
Wei et al. — "Emergent Abilities of Large Language Models", TMLR, 2022. 链接
Bai et al. — "Constitutional AI: Harmlessness from AI Feedback", arXiv:2212.08073, 2022. 链接
Schmidhuber — "Gödel Machines: Self-Referential Universal Problem Solvers Making Provably Optimal Self-Improvements", arXiv:cs/0309048, 2003. 链接
Lu et al. — "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery", arXiv:2408.06292, 2024. 链接
Hu et al. — "Automated Design of Agentic Systems", arXiv:2408.08435, 2024. 链接
Wen et al. — "Automated Weak-to-Strong Researcher", Anthropic Alignment Science Blog, 2026. 链接
硅谷101 — 「再访田渊栋：46.5亿估值的 RSI 新旅途、AI 自进化」, 2026. 链接
界面新闻 —「OpenAI联合创始人Andrej Karpathy加入Anthropic，曾任特斯拉AI负责人」, 2026-05-20. 链接