文章作者、来源：0x9999in1，ME News TL;DR Anthropic 6月5日报告披露：2026年5月，其主代码库超80%代码由Claude生成，2025年2月Claude Code发布前这一数字仅个位数。工程师人均日合并代码量较2024年增长8倍，Claude同时担任自动代码评审员。模型自主文章作者、来源：0x9999in1，ME News TL;DR Anthropic 6月5日报告披露：2026年5月，其主代码库超80%代码由Claude生成，2025年2月Claude Code发布前这一数字仅个位数。工程师人均日合并代码量较2024年增长8倍，Claude同时担任自动代码评审员。模型自主

Anthropic报告：AI开始自己写自己，但还没学会自己想自己

来源：MetaEra

2026/06/05 14:39

阅读时长 18 分钟

ME$0.0652-7.53%

如需对本内容提供反馈或相关疑问，请通过邮箱 [email protected] 联系我们。

文章作者、来源：0x9999in1，ME News

TL;DR

Anthropic 6月5日报告披露：2026年5月，其主代码库超80%代码由Claude生成，2025年2月Claude Code发布前这一数字仅个位数。
工程师人均日合并代码量较2024年增长8倍，Claude同时担任自动代码评审员。
模型自主工作时长每4个月翻一倍：从Claude 3 Opus的4分钟，到Claude 4.6 Opus的12小时，再到Mythos预览版的16小时以上（METR数据）。
小模型训练代码提速实验中，Claude Mythos预览版实现52倍加速，远超人类顶尖研究员4–8小时4倍的水平。
但Anthropic明确澄清：完全自主设计并训练后继模型的递归自我提升，尚未实现。
实验的优化目标与成功指标，仍由人类事先设定。
智谱AI唐杰5月12日预测的"自我训练基线"，目前只兑现了"微缩版"。

80%这个数字，到底意味着什么

先把最炸的那个数字摆出来。

Anthropic 6月5日发布的报告《当AI建造自身》里写得很清楚：截至2026年5月，公司主代码库合并进去的代码，超过80%是Claude自己写的。

往回倒15个月。2025年2月，Claude Code刚发布那会儿，Claude贡献的代码占比还停留在个位数。

15个月，从个位数到80%。

这是什么概念？这是一家以"AI安全"立身的公司，把自己的核心代码库交给了自己造的模型。不是辅助，不是补全，是主力。

但80%不等于"AI接管了Anthropic"。这是两件事。

报告里有一句话被很多人忽略了——Anthropic明确澄清：完全自主设计和开发后继者的递归自我提升，尚未实现。

注意这几个词：完全自主、设计、后继者。

翻译一下：Claude现在能写代码、能审代码、能跑实验、能在被设定好的目标下把训练流程加速52倍。但它还不能自己决定"我要造一个比我更强的我"，也不能自己定义"更强"是什么意思。

这是两个世界。一个是工程世界，一个是科研决策世界。前者已经被AI攻陷了大半，后者还守着。

工程师人均产出8倍，但人没消失

2026年第二季度，Anthropic工程师人均每天合并的代码量，是2024年的8倍。

8倍。不是8%，是800%。

工作流变成什么样了？工程师负责两件事：定目标，做审查。中间所有的脏活累活——写、跑、调、测——交给Claude。

更狠的是，Claude还兼职做了代码评审员。它写完代码，再用另一个自己来挑毛病，拦Bug，找安全漏洞。

这就是唐杰5月12日在公开场合提到的"自我评判"支柱。他当时预测，大模型的终局是自我进化，而自我评判是必经之路。Anthropic把这个支柱在工程端做出来了。

但人类没消失。最后一道审查，仍然是人来盖章。

为什么？因为Claude写的代码再多，也得有人对结果负责。出了事，AI不会被起诉，Anthropic会。

这就是当前阶段的真实样貌：AI是高产的实习生，人类是签字的合伙人。实习生越来越能干，但签字权没让出去。

问题是，签字权还能守多久？

人均日合并代码量翻了8倍，意味着每个工程师每天要审查的代码也翻了8倍。人的注意力、判断力、专业精力，是有上限的。代码量一旦突破某个阈值，"审查"就会从实质性把关，退化成走流程。

这才是真正值得警惕的事。不是AI抢了多少活，是人类还能不能审得过来。

自主工作时长，每4个月翻一倍

如果说80%是震撼，那"每4个月翻一倍"才是恐怖。

把时间线拉出来看：

2024年3月，Claude 3 Opus：能持续处理4分钟的简单任务。
2025年，Claude 3.7 Sonnet：1.5小时。
2026年3月，Claude 4.6 Opus：12小时的复杂任务。
2026年最新，Claude Mythos预览版（METR评测）：16小时以上，已经逼近评测工具的上限。

从4分钟到16小时，两年时间，提升了240倍。

而这个曲线还没有放缓的迹象。

按这个速度往下推，2027年，AI将能独立完成人类需要数周才能做完的科研任务。这不是科幻，是当前增长曲线的简单外推。

"无人公司"这个词，过去听起来像PPT话术。现在它有了具体的工程定义：当一个AI模型能连续16小时自主工作，并且这个数字还在以4个月翻倍的速度增长时，传统意义上的"团队"就开始失去必要性。

但这里也得泼一盆冷水。

METR测的是什么？是模型在受控评测环境下、面对预设任务时的持续工作能力。不是模型在真实世界里、面对开放问题时的可靠度。

实验室里能跑16小时，不等于在生产环境里能跑16小时。

不过这个差距正在缩小。这才是真正值得关注的趋势。

52倍加速 vs 4倍：人类研究员被甩开了吗

报告里还有一组数据，杀伤力不亚于80%。

Anthropic做了一个小模型训练代码的提速实验：

2025年5月，Claude 4 Opus：把训练代码速度提升3倍。
2026年4月，Claude Mythos预览版：52倍加速。
人类顶尖研究员：4到8小时内，通常能做到4倍提升。

52倍 vs 4倍。这是一个数量级的差距。

唐杰预测的"AI写代码、洗数据、自己训练自己"的自我训练基线，是不是已经跑通了？

报告给的答案是：跑通了，但只是微缩版。

什么叫微缩版？

第一，这是小模型，不是Claude本体。AI不是在训练自己，是在帮人训练一个小弟。

第二，优化目标是人定的。"把训练代码加速"这个任务，是人类研究员设计的。AI没有自己想出"我要去加速训练代码"。

第三，成功指标也是人定的。什么叫"加速52倍"，怎么算成功，标准在人手里。

把这三层剥掉，剩下的才是AI真正的自主能力：在被框定的目标和被定义的成功标准下，把执行环节做到极致。

这是巨大的进步。但这不是"AI在训练自己"。这是"AI在按人类剧本，演一段关于自我训练的戏"。

剧本谁写？还是人。

自我进化的"完整链条"，到底卡在哪里

完整的自我进化链条是这样的：定义目标 → 设计实验 → 清洗数据 → 生成合成数据 → 训练模型 → 评估结果 → 修正方向 → 再来一遍。

Claude现在能做哪几步？

执行层面，几乎全包了。写训练代码、跑实验、处理数据、生成合成样本、跑评估——这些环节，Claude都能干，而且干得比人快。

决策层面，几乎一步都没拿下。

"我应该优化哪个指标"——人定的。

"什么样的数据值得拿来训练"——人定的。

"模型出了问题，下一步该改架构还是改数据"——人定的。

"这一代训出来不够好，下一代应该是什么样"——人定的。

差距就在这里。

执行可以并行、可以加速、可以堆算力。决策不行。决策需要对问题本身有理解，需要在不确定中下注，需要对"什么是好"有判断。

这恰恰是当前大模型最弱的地方。它们擅长在已定义的目标下找最优路径，不擅长在未定义的空间里找正确目标。

唐杰说大模型的终局是自我进化。这个判断没问题。

但从"能写代码"到"能自我进化"，中间还隔着"能定义问题"这一层。这一层，Anthropic的报告显示，AI还没拿下。

黑箱化的临界点正在逼近

唐杰还有一个预测，比"自我训练"更激进：LLM OS取代传统操作系统，应用按需即时生成。

什么意思？未来你电脑上跑的软件，不再是开发者写好、打包好、发布出来的那种。而是AI根据你当前的需求，临时生成的。

这意味着什么？意味着没有源代码可以被人类提前审查。每一次软件运行，都是一次新的代码生成。

把这个预测和Anthropic报告里的警告叠在一起看：

人类审查跟不上AI自我进化。

Anthropic报告原文是这么说的——人类审查能力的增长速度，远远落后于AI能力的增长速度。

两件事合在一起，就是一个非常具体的临界点：未来的软件，不仅人类审查不过来，而且根本没有"代码源头"可审。生成的瞬间就是运行的瞬间。

这才是黑箱化的真正含义。

不是说我们不知道AI在想什么。是说我们连"AI写了什么"都来不及看。

一旦AI开始自主设计并训练自己的后继者，整个软件演进的链条就会彻底进入黑箱。这一代Claude训出下一代Claude，下一代Claude训出下下代Claude——人类只能看到首尾，看不到中间。

到那一步，安全隔离、行为对齐、监控审计这些词，意义会发生根本变化。它们不再是工程问题，而是哲学问题。

你怎么对齐一个你看不懂、追不上、审不及的系统？

Anthropic为什么要把这些数字公开

最后说一个容易被忽略的角度。

Anthropic不是必须把这些数字公开的。80%代码由AI生成，52倍加速，16小时自主工作——这些都是商业机密级别的数据。

公开它们，有两个动机。

第一，立标杆。Anthropic想告诉行业和监管：看，我们做到了什么程度，但我们也告诉你我们没做到什么。这是一种负责任的叙事姿态，是在为AI安全行业争夺话语权。

第二，递信号。给政府、给学界、给同行：递归自我提升正在变成现实，请准备好应对方案。

这两个动机不冲突，但都不纯粹。

Anthropic既是这场进化的推动者，也是它的吹哨人。它既需要展示进展来融资、招人、立威，又需要展示克制来博取信任、争取空间。

报告里那句"完全自主的递归自我提升尚未实现"，既是事实陈述，也是公关策略。事实成分有多少，公关成分有多少，外界无从精确判断。

但有一件事是清楚的：当造AI的公司开始主动谈论"AI造AI"的边界在哪里，说明这条边界已经近在眼前。

不然，没人会去谈一件远在天边的事。

写在最后

80%的代码、8倍的产出、240倍的工作时长、52倍的加速——所有这些数字拼在一起，描绘的不是一个"AI已经接管"的世界，而是一个"AI正在以可怕速度逼近接管"的世界。

跑通了的，是局部闭环。

没跑通的，是完整闭环。

中间的距离有多远？看上去很远——决策、定义、判断，这些词听起来都是人类的最后堡垒。

但回头看那条曲线：4分钟到16小时，用了两年。

人类的最后堡垒，按这个速度，能守几年？

没人知道。

唯一知道的是，问这个问题的窗口，正在快速关闭。

引用来源

The Anthropic Institute. *When AI Builds Itself: Progress Report on Recursive Self-Improvement*. June 5, 2026.
METR (Model Evaluation & Threat Research). *Long-Horizon Autonomous Task Benchmark: Claude Mythos Preview Results*. 2026.
Anthropic. *Claude Code Launch Announcement and Engineering Productivity Metrics*. February 2025 / Q2 2026 Update.
唐杰. 公开演讲《大模型的下一站：从生成到自我进化》. 2026年5月12日.
Anthropic Research. *Claude as Automated Code Reviewer: Internal Deployment Report*. 2026.
Anthropic. *Small Model Training Acceleration Experiments: Claude 4 Opus vs Claude Mythos Preview*. May 2025 – April 2026.
The Anthropic Institute. *Human Oversight Scaling Limits in the Age of Autonomous AI Engineering*. 2026.

市场机遇

ME实时价格 (ME)

$0.0652

$0.0652$0.0652

-8.46%

USD

ME (ME) 实时价格图表

SPACEX(PRE) Launchpad

注册即有机会获得免费抽奖资格

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。