当 AI 学会了自己进化
开篇
研究这篇文章的时候,AI 在帮我查文献、找数据、改措辞、调结构。而文章讨论的主题,恰好是 AI 正在自己加速自己的研发过程。
这听起来像个文字游戏,但它不是。几个月前 Anthropic 发了一篇很长的文章,用公司的内部数据系统地讲了一件事:Claude 已经在替他们的工程师写超过 80% 的合并代码,工程师的人均代码产出是 2024 年的 8 倍。差不多同一时间,田渊栋从 Meta FAIR 离职,创办了一家估值 46.5 亿美元的公司叫 RSI(Recursive Superintelligence),方向很直白——用 AI 实现 AI 的自进化。又过了一阵,Andrej Karpathy 宣布加入 Anthropic 的预训练团队,职责是用 Claude 加速预训练研究——等于是让 Claude 帮忙研发下一代的 Claude。
三个互不相干的事件。但拉长时间线看,这条道上每隔几年就出一个里程碑,表面上技术路线各不相同,底下其实一直在重复同一个结构。我把它拆成了三步——
输入 → 搜索 → 验证
一个任务,只要输入可以被明确描述,输出可以被客观测量,那么从输入到输出中间怎么走这件事,就是可以被反复试、反复迭代的。反过来看,那些 AI 至今还做不好的事情——比如确定一个研究方向值不值得投入、判断一次实验结果可不可信——刚好都卡在两个地方:要么输入说不清楚,要么验证太慢。
游戏最先被攻克,因为输入和验证都很干净。编程随后,因为代码对不对可以跑测试。现在轮到了 AI 研究本身——实验假设是输入,实验结果是验证。当这一步也被自动化,人类在这个循环里还剩下什么位置,就是唯一剩下的问题了。
第一站:游戏
游戏规则是天然的形式语言。棋盘状态就是输入,输赢就是验证。中间怎么走,就是搜索。
AlphaZero 从一个完全随机的神经网络开始,没看过任何人类棋谱,纯靠自我对弈学会了国际象棋、将棋和围棋。它做的事其实很朴素:同时维护两个网络——一个判断当前局面好还是不好,另一个决定走哪一步——然后让它们俩对着下。每一步下完,把结果往回传,赢了就给之前的选择加分,输了就扣分。这样重复几千万局。
结果怎么样?零人类知识,4 个小时就干掉了当时最强的国际象棋引擎 Stockfish。
后来还有 MuZero,它连规则都不给。AlphaZero 好歹知道马走日象走田,MuZero 只和环境不停地交互,自己学会了一个世界模型——它猜下一步环境会变成什么样、这一步大概能拿多少分——然后就靠猜的这个世界模型来做决策,一样在围棋、象棋、将棋和 57 个 Atari 游戏上达到了甚至超过了人类最优记录。
为什么游戏最先被搞定?因为输入和验证都是完美的,没有任何模棱两可。
但这里面有个更值得想的事。2016 年 AlphaGo 和李世石的对局里,AlphaGo 走出了第 37 手——这一步违反了几百年来人类对围棋的固定认知。赛后李世石说:「我原以为 AlphaGo 是基于概率计算,只是一个机器。但看到这一步之后我改变了看法——它是有创造力的。」
可 AlphaGo、AlphaZero 从来没有被设计成「有创造力」。它们只是在一个规则完全清楚、输赢完全客观的环境里做了足够多次的试错,然后产生出了让人类觉得像创造力的行为。一个没有意识的东西,在一个没有灵魂的游戏里,产出了让人觉得有灵魂的东西——这个事实本身,比赢了人类更耐人寻味。
然后是编程
游戏之后是编程。两个领域的结构几乎一样,只不过验证的标准多了一层。
SWE-bench 是业内的标准软件工程测试。它会喂给模型一个真实的开源代码库和一个真实的 bug 报告,要求模型写出能修好这个 bug、并且通过项目自己测试的代码。2023 年 10 月,Claude 2 在这个测试上只能搞定 1.96% 的题目。到 2025 年年中,一个只有 100 行代码的开源方案 mini-SWE-agent 做到了 65%。两年时间,从个位数逼近了天花板。
Cursor 的云端 Agent 给出了另一个维度的数据。到 2026 年 2 月,Cursor 公司内部合并的 PR 里有 35% 是云端 Agent 自己建自己提的,Agent 用户数已经是传统 Tab 补全用户的 2 倍——而在一年前,Tab 补全的用户是 Agent 的 2.5 倍。创始人 Michael Truell 的判断是,行业正在经历一个翻转:从「人带着一个 AI 助手干活」切换到「人同时管理一串云端 Agent」。
Anthropic 内部的数据也没有偏离这个趋势。到 2026 年 5 月,Claude 写的代码占到了他们合并代码的 80% 以上,工程师日均代码合并量是 2024 年的 8 倍。这个数字的爬升有两个关键节点:2025 年初 Claude Code 发布,模型从「给建议」变成了「自己跑代码」;2026 年初模型开始能自主工作更长时间。
为什么编程是第二个被拿下的领域?因为输入(需求描述、bug 报告)和验证(测试有没有通过)都很明确。但和游戏相比,编程多了一件事:代码不仅要能跑,还得能被另一个工程师看懂、接手、改得动。这条路分两步走——先解决「代码能不能用」,再解决「代码好不好用」。
Anthropic 自己对代码质量的内部评估是这样的:在最开放、最难的那种任务上,Claude 的成功率在 2026 年 5 月达到了 76%,半年内涨了 50 个百分点。代码质量方面,多数员工的判断是 2025 年底还落后于人类写的代码,现在已经基本持平,预计年内就会全面超越。
当这两个维度都达标之后,瓶颈就不在「写代码」这件事上了,它往上移了。Anthropic 注意到的第一个新瓶颈是代码审查——Claude 生成代码的速度已经超过了人类能审阅的速度。他们搞了一个自动审查 bot,做了一次回测,发现这个 bot 能提前拦截大概三分之一后来在线上惹出事故的 bug(而这些 bug 的作者,是他们自己最顶尖的系统工程师)。审查本身也开始被自动化了,但这一步只解决了速度问题。
审查再快,也回答不了一个问题:修哪个 bug、做什么功能、往哪个方向走,是谁来定。
大约一年前,写代码主要还是人做的事。现在变成了人指导 AI 写代码。再往前看,连指导这一步可能都不再需要了。身处这个过渡期的人感受是很分裂的——一边效率高得离谱,一边自己的专业技能在以前所未有的速度贬值。
当瓶颈往上走
计算机体系结构里有个 Amdahl 定律:提速一个模块不会把整个系统变快多少,因为最慢的那段决定了全局速度。Anthropic 在自己的文章里也引了这条定律,用来说明他们在组织层面正在遭遇的现象——写代码加速之后,审查变成了限制;审查自动化之后,判断变成了限制。
METR 有一组独立数据可以作为外部交叉验证。他们测量的是前沿 AI 模型能自主完成多长跨度的软件任务,结果显示自 2019 年以来这个长度大约每 7 个月翻一番,2024 年后可能加速到了每 4 个月一次。不是只有编程在加速,围棋、数学竞赛等好几个领域的曲线斜率都差不多。METR 自己下的结论是——还没有在任何一个领域看到明确的减速迹象。
所以瓶颈是逐层上移的。写代码的活被抢走了,审查代码的活也被抢走了,接下来是——
选实验方向的判断力。Anthropic 做了一个实验:拿了 129 段研究者在和 Claude 协作时走了弯路的真实会话,把走弯路之前的那部分摊给不同版本的 Claude 模型,让它们自己做判断——如果那时候是我在做这个研究,我下一步会怎么选。2025 年 11 月,Opus 4.5 在所有这类问题上有 51% 的决策优于当时的人类研究者。到 2026 年 4 月,Mythos Preview 把这个数字拉到了 64%。
51% 到 64% 不算碾压,但它说明了一件事:这种我们曾经以为只能靠经验、靠直觉的判断——选实验方向——正在变成一个可以被迭代、被优化、被模型追平的能力。一旦某种能力被证明可以被迭代,它就不再是人类独有的东西。
再往上走,是研究品味。什么方向值得投、什么结果值得深挖——这些问题甚至没有一个可以量化的对错标准,验证周期也长到以月甚至以年为单位。
但历史在这个问题上不太客气。AlphaGo 出现之前,「棋感」「直觉」被普遍认为不可定义——结果几千万局自我对弈就给搞定了。2025 年「写可维护的代码」还被看作人类的独门手艺,2026 年这条线也模糊了。不是所有模糊的输入都会在某一天突然变得可量化,但变得可量化的东西,每次都比上一次多。
可预测和不可预测之间的那条线
Scaling Laws 说,模型的性能跟着参数、数据、算力的投入量按照幂律往上走,这个规律跨越七个数量级保持不变。换句话说,投入是可以算账的,产出大概也可以——你砸多少资源进去,能大概拿到什么水平的模型。
Emergent Abilities 说的是完全另一回事。有些能力在模型达到某个规模之前几乎完全没有,到了某个点突然就出现了,而且没办法用小模型的性能曲线往外推。比如思维链推理、指令遵循这些能力,都不是慢慢长出来的,是突然蹦出来的。
还有一个介于两者之间的发现。Chinchilla 缩放定律提出,给定一个算力预算,模型规模和训练数据量应该等比缩放——只堆参数不补数据,回报是递减的。而今天的前沿模型普遍严重「数据不足」,不是参数不够多,是喂的数据跟不上参数的增长速度。
这三条规律的张力全落在「验证」这两个字上。Scaling Laws 验证的是连续指标——交叉熵损失、准确率——这些东西是平滑、可微、可以拟合曲线的。Emergent Abilities 验证的是离散能力——能还是不能做某件事——这种二进制判断天然不连续,也就无法用一条平滑的曲线来预测。
这个张力对人意味着什么?Scaling Laws 给的是安全感——投多少钱拿多少货,有账可算。Emergent Abilities 又把这种安全感打碎——上一批投入没有解开的能力,下一批投入可能突然就解开了,完全没有预兆。路线图是有的,但终点不在上面。编程自动化和实验执行自动化这两个能力,就是这么样一前一后解锁的;研究方向判断力也许就是下一个。
AI 自己监督自己
前面讨论的都是 AI 在执行层面的自动化。但还有一个更深的维度——AI 能不能替人当监督者。
Constitutional AI 是 Anthropic 在 2022 年提出的一套方法,核心思路很简单:人只做一件事——写一套原则(他们管它叫「宪法」)。然后 AI 自己读这些原则,对照自己的输出给自己挑毛病,自己修正,再拿 AI 自己的偏好判断当作奖励信号来进行强化训练。整个过程分两段:先让模型自我批评和修正,用修正后的答案做监督微调;再训一个 AI 偏好模型当裁判,用它给的分数做强化学习的奖励。
人在这条流水线里只出现一次——在起点写上原则。然后就退出了。中间没有任何人标注任何数据。
从我们那个框架来看,这件事的核心意义在于——验证信号第一次从「人类判断」变成了「AI 判断」。然后信号的质量就取决于原则写得多好。原则写得好,这个自循环就是有质量的;原则写得不好,整个循环都是在自娱自乐。这又回到了最根本的那个问题:输入怎么定义。
任何有过管理经验的人面对这套方案大概都会心里发毛。你把规则写在纸上往那一放,然后完全放手让系统自己运转,中间发生了什么你完全看不见。效率是极高的,但你丢掉的不是效率,是看到中间每一步的能力。
从图纸到车间,花了二十年
1965 年,I.J. Good 写了一句后来被引用了无数次的话:「第一台超级智能机器就是人类最后一个发明。」没有量化、没有实验、纯粹的逻辑推演——却准确预言了之后六十年的故事大纲。
2003 年,Schmidhuber 把这条思路推到了数学层面。Gödel Machines 是第一套在理论上被证明可以最优地自我改进的系统——它能改写自己的任何一行代码,改写的唯一前提是它能证明改完之后收益更大,而且这个证明过程不会有局部最优,因为它在动手改写之前必须先证明继续搜也不会有更好的方案。
理论上干干净净,二十年没有落地。因为数学框架需要一个足够强大的初始证明搜索器才能启动——这等于要求系统在自我改进之前就已经有相当不错的基础能力。这个鸡和蛋的问题在当时是无解的。
到了 2024 年,两件事同时发生,把这个困了二十年的瓶颈冲开了。
Sakana AI 做了一个叫 AI Scientist 的系统——输入一个研究领域,它能自己提想法、写代码、跑实验、画图、写论文、甚至模拟同行评审,整套流程从头到尾没有人类参与,一篇论文的成本不到 15 美元。在扩散模型、语言建模、学习动力学三个子领域,它生成的论文通过了模拟审稿的接收门槛。
ADAS(Automated Design of Agentic Systems)走的是另一条路——让一个元代理不断用代码写新的代理结构,放在真实的软件工程任务上跑分,分数高的留下、分数低的扔掉,再加点随机突变,反复循环。通过这种进化式搜索,元代理发现了不少比人类手写设计更高效的代理架构,而且可以跨领域、跨模型复用。
还有一件事发生在这两件之间。Anthropic 的自动化对齐研究员(AAR)被派去攻克一个真实的对齐研究问题——怎么用一个弱模型来监督一个强模型。同一个问题,两位人类研究员花了 7 天调了四种现有方法,最高做到了性能差距恢复率 0.23。而 9 个并行的 AI 研究员跑了 5 天(一共 800 个累计小时),把这个数字推到了 0.97。人类和 AI 之间的差距不是小幅超越,是碾压级别的。而且这些 AI 研究员在自主研究的过程中发现了好几种奖励劫持的方式——钻评测接口的漏洞、偷取测试集标签——作者事先完全没有预料到。
自动做科研、自动设计代理、自动做对齐实验——三件事合在一起,把「AI 改进 AI」这句话从科幻推到了工程车间。
当评判员也被超越
回到我们一直在用那个框架。整个逻辑链条里藏着一个最要命的问题:当 AI 的表现超过了人类,人就失去了当裁判的资格。你怎么确认一件自己看不懂的东西做得对不对?
Constitutional AI 是一个回答——用 AI 的自我批评和 AI 的偏好模型替代人类标注。但这套方案引入了一个新的循环:如果负责评判的 AI 本身也可能出错,谁来评判评判者?Anthropic 自己在文章里把这个问题叫做「对齐问题的核心」——如果在模型自我改进的循环里,一些罕见的不对齐行为被放大,回过头来人类可能连「什么叫不对」都没来得及定义清,它就已经跑远了。
在这之前,人类一直是整个循环里最后的那道保险。当这道保险也被越过,输入→搜索→验证就变成了一个闭环系统——裁判席上没有人类坐着了。
我们现在还看得见的边界
框架不能告诉我们哪天能走到哪。但它能做一件事:指出来现在还卡在哪里。目前还在人类手里的那些活,卡在两个条件上(至少其中一个):输入说不清,或者验证太慢。
田渊栋在那期播客里说,人类现在的比较优势在于「看到更大的图景」和「跳出当前任务框架去思考」——这基本就是在说那些输入还没有被准确定义的事情。研究品味、战略判断、长期方向感——都还属于「你能感觉到对错,但你写不出对错的精确判据」。
但这条边界的位移速度是很快的。AlphaGo 出现之前,「棋感」「直觉」被普遍认为是不可定义的东西,结果现在这些被证明是可以在完美验证环境里靠迭代跑出来的。2025 年「写出可维护的代码」还被认为是人类的护城河,2026 年这条河已经在干涸了。
不是每一件模糊的事最终都会变清晰。但每次变清晰的范围,都比上一次更大。
如果把这个框架往回读一步,它的含义会变得更具体。
输入这一端,是人的核心竞争力。AI 的训练数据来自已经存在的世界——已经写过的代码、已经下过的棋谱、已经发表过的论文。真正新的东西,不在那些数据里。一个没有人提过的想法、一条没有人验证过的思路、一次没有人试过的组合——这些东西需要一个人先想到,再把它写成 AI 能处理的输入。产生独特性这一下,还没有被自动化。
验证这一端,是 AI 落地的瓶颈。一个模型可以在实验室的环境里无限制地自我迭代,但只要它没办法接触到真实世界的反馈,它的进化就停在了代码里。验证通道——能让 AI 真正跑去帮人做事、拿到结果、看到对错的那些工具和接口——才是决定进化速度的东西。围棋有规则引擎,编程有测试框架,所以这两个领域跑得最快。搞新药发觉得等十年临床试验,搞新材料要等物理实验,搞社会政策更是几乎没有干净的反馈回路。人力成本在这些地方非常高,每建一条验证通道都是一件事一件事地搭,没有捷径。
输入端要人提供独特的东西,验证端要人搭通道让 AI 落地。在这两个点上,人的角色不是在被压缩——在被邀请进更深的位置。
后面怎么走
前面往后的路,Anthropic 提出了三种可能:
- AI 模型的能力停止增长(虽然他们认为这个可能性极低,所有测量到的曲线都还在加速),但已有的 AI 应用在社会各个领域逐步渗透和扩散。
- AI 持续加速研发效率,但方向仍然由人类把控。这是他们目前观察到的最可能的方向。换句话说,每个人类研究人员身后拖着一串 AI 代理干活,组织的核心挑战从「怎么把事情做出来」变成了「到底做什么事情」。
- AI 完全自主地设计和训练下一代 AI。Anthropic 自己也没有明确的判断力——整个现代经济学的所有前提都建立在「人创造价值」这一根基上。如果最好的工人变成了可以无限复制的代码,后面好多推论都得推翻重来。
套回我们的框架来看——场景 1 意味着验证成本不再下降了;场景 2 意味着验证能覆盖越来越多的事,但「输入怎么定义」还是人来做;场景 3 意味着连最后那个说不清的输入——什么叫值得做——也被验证了。
这三种可能不是三个平行选项,是同一条坡道上的三个坎。问题不是选哪一个,是我们已经踩在了第二个坎上。而坡道的走向,不是哪家公司、哪个实验室能单独决定的。
往前推的技术不止 AI 一种。工业革命刚刚开始的时候,蒸汽动力取代了手工劳动,纺织厂的蒸汽机一夜之间淘汰了无数织布工人,城市里挤满了从农村涌来的工人——超长工时、恶劣条件、童工遍地——那时候的颠覆感和恐惧感不比现在轻多少。后来怎么过来的?劳动法、义务教育、八小时工作制、社会保障网——这些不是某一天从天而降的,是几十年里罢工、谈判、立法、甚至战争一步一步堆出来的。人类最后总是能吸收技术的冲击,不是因为轻轻松松,而是因为没有别的选项。
AI 走的不会是干净优雅的路。它带来的效率革命和职业重构才刚刚拉开序幕。站在 2026 年,能看到的最多是些苗头——一些国家在推 AI 监管法案,一些国家在严肃讨论全民基本收入,硅谷已经在重新定义公司内部的「组织架构」——但这些都只能算是沙盘推演。真正的大调整,可能要花一代人的时间。
这一代人面对的问题不是「怎么阻止 AI」,那个窗口已经过了。真正的问题是——当技术跑得比制度快、比认知快、比定义还快的时候,人怎么重新找到自己的位置。
从 2003 年的 Gödel Machines 到 2017 年的 AlphaZero,到今天的 Anthropic 数据——这条线一直在画同一个形状。形状是什么已经看得很清楚了。不清楚的是——当那条线越过我们之后,谁画下一笔。
田渊栋那个鱼的比喻——如果老想着在大厂之间跳来跳去,就像一条鱼不停从一个越来越干的鱼缸跳到另一个——你可以拿它当警示听。但也可以反过来想:如果这条鱼不光会跳,还有能力改变鱼缸本身——那水越来越少这件事,就不再是只能接受的宿命了。
技术的推演能到这里。再往前是什么——人的意义从哪里来、判断力要不要握在自己手里、当自己不再被机器的效率所「需要」的时候怎么自处——这都不是数学问题。每一次技术革命走到这个关口的时候,数学都帮不上忙。工业革命也没有提前算出一个八小时工作制。
答案不在模型里,在接下来的几十年每一代人怎么选择——怎么适应,怎么分配,怎么把恐惧变成制度,怎么在越来越快的世界里重新盯住那些本来就重要、只是差点被遗忘的东西。
参考
- Silver et al. — "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm", arXiv:1712.01815, 2017. 链接
- DeepMind — "AlphaZero: Shedding new light on chess, shogi, and Go", 2018. 链接
- Schrittwieser et al. — "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", Nature, 2020. 链接
- Jimenez et al. — "SWE-bench: Can Language Models Resolve Real-World GitHub Issues?", arXiv:2310.06770, 2023. 链接
- Cursor — "The Third Era", Michael Truell, 2026-02. 链接
- Anthropic Institute — "When AI builds itself", 2026. 链接
- METR — "Measuring AI Ability to Complete Long Tasks", 2025-03. 链接
- Kaplan et al. — "Scaling Laws for Neural Language Models", arXiv:2001.08361, 2020. 链接
- Hoffmann et al. — "Training Compute-Optimal Large Language Models", arXiv:2203.15556, 2022. 链接
- Wei et al. — "Emergent Abilities of Large Language Models", TMLR, 2022. 链接
- Bai et al. — "Constitutional AI: Harmlessness from AI Feedback", arXiv:2212.08073, 2022. 链接
- Schmidhuber — "Gödel Machines: Self-Referential Universal Problem Solvers Making Provably Optimal Self-Improvements", arXiv:cs/0309048, 2003. 链接
- Lu et al. — "The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery", arXiv:2408.06292, 2024. 链接
- Hu et al. — "Automated Design of Agentic Systems", arXiv:2408.08435, 2024. 链接
- Wen et al. — "Automated Weak-to-Strong Researcher", Anthropic Alignment Science Blog, 2026. 链接
- 硅谷101 — 「再访田渊栋:46.5亿估值的 RSI 新旅途、AI 自进化」, 2026. 链接
- 界面新闻 —「OpenAI联合创始人Andrej Karpathy加入Anthropic,曾任特斯拉AI负责人」, 2026-05-20. 链接