科技资讯

Anthropic 首次公开内部数据：80% 的代码已经由 AI 编写

32 7分钟阅读 2026-06-05

Anthropic 首次公开内部数据：80% 的代码已经由 AI 编写

Anthropic 刚发了一篇文章，标题叫《When AI builds itself》。不是那种泛泛而谈的展望，而是拿出了真金白银的内部数据，告诉你：AI 正在加速构建 AI 本身，而且速度比大多数人想象的快得多。

一个最炸裂的数字：截至 2026 年 5 月，Anthropic 合并到代码库里的代码，80% 以上由 Claude 编写。

这不是演示，不是实验，是生产环境的真实数据。

AI 开始自递归我迭代时代。

什么叫递归自我改进？简单说就是：AI 系统自己设计并构建下一代 AI 系统。 不是人写代码让 AI 变强，而是 AI 自己写代码让自己变强。

这个循环一旦闭合，进步速度就不再取决于人类工程师的产出，而是取决于算力和算法效率。Anthropic 在文章里画了一条时间线：

2021–2023：人写代码，AI 不参与
2023–2025：人用聊天机器人辅助写代码
2025–2026：AI 能独立编写和编辑整个文件
今天：AI 自己跑代码，还能把工作委派给其他 AI
20XX：AI 构建和训练自身的下一代模型

我们现在在第四步。第五步还没到，但趋势线指的方向很明确。

AI 能力的增速在加快

先看外部基准测试的变化：

AI 能独立完成的任务时长，从每 7 个月翻一番加速到每 4 个月翻一番
2024 年 3 月，Claude 能完成 4 分钟的任务；2025 年 3 月，1.5 小时；2026 年 3 月，12 小时
SWE-bench（真实 bug 修复测试）：两年内从个位数得分到饱和
CORE-Bench（论文复现测试）：2024 年成功率 20%，15 个月后饱和

如果趋势持续，数天的任务今年就能纳入范围，数周的任务 2027 年可能搞定。

Anthropic 内部发生了什么

公开基准只能看到能力，看不到对 AI 开发本身的影响。这部分是文章的核心。

如果你只想先抓住这一节最重要的变化，可以先看下面这张图。

Anthropic 内部数据总览图

这张图对应后文的核心判断：Anthropic 的变化不是单点突破，而是代码来源、工程节奏、研究速度和质量审查同时改写了。

工程端：8 倍产出

2021-2024 年，每位工程师每天合并的代码量很稳定。2025 年 Claude 开始自己跑代码时，曲线抬头。2026 年模型能长时间自主工作时，曲线加速。到 2026 年 Q2，典型工程师每天合并的代码量是 2024 年的 8 倍。

每人每季度代码贡献量

8 倍这个数字肯定高估了真实生产力（代码行数不是好指标），但它说明了一件事：加速度是真实的。 Anthropic 不按代码行数考核，产出增加纯粹是因为用 AI 写了更多代码。

一个具体的例子：2026 年 4 月，Claude 提交了 800 多个修复，把一类 API 错误减少了一千倍。监督的工程师说，人类做这件事要四年。

研究端：从助手到竞争对手

实验优化的基准测试里，2025 年 5 月 Claude Opus 4 达到约 3 倍加速；2026 年 4 月 Claude Mythos Preview 达到 52 倍。作为参照，熟练人类研究员要 4-8 小时才能到 4 倍。

更有意思的是研究判断力测试。给模型看一段「即将走偏」的研究会话，问它下一步做什么。2025 年 11 月，最好的模型 51% 的情况优于人类选择；2026 年 4 月，这个数字到了 64%。

文章原话：「研究品味」可能只是 AI 系统暂时做不好的又一项能力，然后就会变得擅长。

代码质量：今年内会超过人类

Claude 写的代码在 2025 年底比 Anthropic 人类工程师略差，今天基本持平。文章判断：预计年内会严格超过人类。

现在 Anthropic 每次代码变更都会先过一遍自动化 Claude 审查。回溯分析发现，这个自动审查本可以提前捕获 claude.ai 过去事故中 三分之一 的 bug。写那些代码的是世界上最好的工程师。Claude 在抓他们漏掉的错误。

AI 开发循环的演进

如果你更想先理解“递归自我改进”为什么现在突然变得具体，这张图会更直观。

AI 开发循环演进图

先记住这个主线：AI 先是帮人写代码，接着开始独立完成整段工作流，最后才逼近“帮自己变得更强”的闭合回路。

Anthropic 把这几年画成了一张图，非常直观： AI 开发循环的演进

我将里面的文字的内容整理成了表格

时间	阶段	人在做什么
2021–2023	建造第一个 Claude	人写代码、写文档，跟其他公司一样
2023–2025	聊天机器人	让 AI 生成短代码片段，人复制粘贴
2025–2026	编码智能体	AI 能独立编写和编辑代码，处理整个文件
今天	自主智能体	AI 自己跑代码，还能把工作委派给其他 AI
20XX?	闭合回路	AI 构建和训练自身模型，Claude 由 Claude 改进

我们现在大概在第四行。第五行就是递归自我改进。

三种未来

如果你习惯按分叉路径理解趋势，可以先看这张图。

三种未来分叉图

图里的意思其实很简单：真正需要准备的，不是“AI 会不会变强”，而是它会沿着哪条路径继续加速。

文章提出了三种可能的走向：

场景一：趋势停滞。 指数曲线其实是 S 曲线，能力增长见顶。但即使冻结在今天的水平，100 人的公司也能干 1000 人的活。Anthropic 认为这个场景不太可能。

场景二：持续加速，但人类仍掌舵。 AI 开发基本自动化，人类负责选方向和判断结果。100 人公司干 10 万人的活。Anthropic 认为我们正在进入这个场景。但阿姆达尔定律也适用——加速一部分只是把瓶颈推到别处，现在人类代码审查已经成了新瓶颈。

场景三：完整的递归自我改进。 AI 自己设计后继版本，人类只做监督和验证。进步速度完全由算力决定。这是最不确定的场景——对齐问题可能解决，也可能随着模型自我迭代而失控。

Anthropic 的态度

文章最后一段值得细读。Anthropic 的立场是：

如果能有效地减慢发展速度来赢得应对时间，那可能是好事。但如果减速只是让最不谨慎的人追上来，反而更危险。

他们正在研究如何构建一个可信的验证机制——让各方能确认其他人确实停了，然后 Anthropic 才愿意一起慢下来。但训练运行比导弹发射井更容易隐藏，可信暂停在技术上非常难。

坦白讲，这段话的信息量比前面的数据还大。一个前沿 AI 公司公开说“我们愿意慢下来，前提是别人也能证明他们慢下来了”——这本身就是一种信号。

最后说两句

这篇文章的分量不在于展望，在于数据。80% 的代码、8 倍产出、52 倍加速——这些不是预测，是已经发生的事。

递归自我改进还没到来，但 AI 构建 AI 的循环已经在加速转动。问题不是它会不会来，而是我们准备好了没有。

Anthropic 说得直接：共同调查这些问题的窗口就在眼前，AI 公司之外的人应该参与这种协商。