EN

世界杯赛程

世界杯赛程

世界杯(中国) Anthropic最新论述, Claude也曾写公司80%的代码, AI驱动自我进化

发布日期:2026-06-06 04:30 来源:未知 作者:admin 浏览次数:

AI终于驱动造我方了。

6月5日,Anthropic发布了一篇很不寻常的长文,题目叫When AI builds itself。直译过来即是,当AI驱动建造我方。

这篇著作的中枢不雅点即是AI正在加快AI的发展。更进一步,若是这个趋势络续走下去,将来可能出现一种系统:它概况自主缠绵、诱惑、测验下一代AI。

这不是科幻演义里的奇点叙事。Anthropic拿出了宽绰里面数据,它思评释东谈主类正在把AI研发进程里的推行门径,少量点交给AI。况兼这个移交速率,比大多数东谈主思象得更快。

最惊东谈主的数字是,适度2026年5月,Anthropic代码库中跳跃80%的合并代码,也曾由Claude编写。2025年2月Claude Code发布连络预览版之前,这个比例还仅仅低个位数。

Anthropic不是一家平日软件公司。它是全球最前沿的大模子公司之一。它的工程师,基本即是全球最懂AI系统的东谈主之一。当今,Claude正在给这些东谈主写代码,还在帮他们抓bug。

AI不是在外围打杂,AI也曾进厂了,进的如故制造下一代AI的工场。

Anthropic给出了一个很故兴趣的新目的。AI能平安完成的任务时长。

2024年3月,Claude Opus 3不错完成约莫相等于东谈主类4分钟的软件任务。2025年,Claude Sonnet 3.7不错完成约莫1.5小时的任务。2026年,Claude Opus 4.6不错处理12小时级别的任务。最新的Claude Mythos Preview在METR测试中,也曾能邻接责任至少16小时,接近测试框架现时能筹划的上限。

之前约莫每7个月翻倍一次,当今酿成约莫每4个月翻倍一次。若是趋势络续,本年AI可能插足东谈主类几天级任务区间。到2027年,AI可能驱动处理东谈主类需要几周才智完成的复杂任务。

这才是这篇著作最让东谈主不安的方位。真实的变化是,AI能邻接责任的时刻越来越长。AI从一个聊天窗口,酿成一个不错我方读代码、改代码、运行代码、调试失实、调用其他Agent衔尾的责任系统。

在昔时,东谈主类仍然掌捏方法。你告诉AI如何作念,它给你局部匡助。当今,东谈主类只需要给认识。Claude会我方思绪径。它不一定老是得胜,但得胜率正在快速提高。

Anthropic把工程任务分红不同难度。最简便的是明确bug竖立。更复杂的是绽开式问题。比如系统为什么变慢,测验任务为什么崩溃,某个目的为什么倏得额外。最难的是,连谜底长什么样都不驯顺。

在这类最绽开的任务上,Claude的得胜率在2026年5月达到76%,半年内提高了50个百分点。

论述里有一个案例。一次旧例升级导致数万个测验任务崩溃。工程师把Claude接入事故现场,只给了一些文本实质和集群拜谒权限。Claude一一排查运行中的任务,一一测试环境成立,临了定位到一个相等遮掩的调试标记。它复现问题,证据竖立。统统这个词过程约莫2小时。东谈主类每每需要2到3天。

这类案例说明,AI驱动领有局部工程判断。它不错在絮叨系统里找痕迹,在宽绰高下文中保持防范力,在东谈主类不肯意作念、作念不动、作念得慢的方位不息激动。

是以,代码量暴增并不奇怪。Anthropic说,在2021到2024年,工程师每天合并的代码行数基本贯通。2025年Claude驱动我方运行代码之后,弧线驱动上扬。2026年模子能更永劫刻自主责任后,弧线再次变陡。到2026年第二季度,典型工程师每天合并的代码量也曾是2024年的8倍。

虽然,代码行数不是竣工目的。更多代码不等于更多价值。它可能高估真实出产率。但Anthropic还作念了职工窥探。2026年3月,130名连络团队职工的中位数臆测是,使用Mythos Preview后,我方的产出约莫提高了4倍。

Claude不仅会写代码,它还会优化代码。

Anthropic每次发布新模子,都会作念一个固定测试。给Claude一段测验微型AI模子的代码,让它在保证效果正确的前提下,把运行速率优化到最快。这个任务很像微型AI连络轮回。目表明确,目的明确,剩下即是握住改代码、运行、计时、复盘、再试。

2025年5月,Claude Opus 4平均不错把代码加快约3倍。2026年4月,Claude Mythos Preview作念到了约52倍。行动参照,一个纯属的东谈主类连络员每每需要4到8小时才智作念到4倍傍边。

Claude在明确界说的实验推行门径上,驱动跳跃东谈主类连络员。

更进一步,Anthropic还展示了Claude端到端运行绽开连络名堂的才略。它给Claude Agent一个AI安全问题,粗疏是弱模子能否可靠监督强模子。Agent需要我方建议假定,测试假定,与并行Agent共享发现,握住迭代。

两名东谈主类连络员花了约莫1周时刻,把性能差距松懈了约23%。Claude Agents累计运行约800小时,消费约1.8万好意思元算力,把差距松懈了97%。

这项实验还有抑制。效果莫得全都搬动到出产范畴模子。问题自己和评分要领仍然由东谈主类设定。但在这个界限内,Claude我方缠绵了每一个实验。东谈主类真实作念的事情,是定认识。

东谈主类从推行者,酿成指导者。再从指导者,酿成审核者。再从审核者,酿成监督一整套AI系统的东谈主。

当今,Anthropic里面的代码变更,也曾会先经过自动化Claude审查器。它认真找bug、安全裂缝和其他纰谬。Anthropic回溯分析发现,若是昔时每次代码变更都有这谈自动审查,约莫三分之一导致claude.ai线上事故的bug,2026世界杯中国官方入口本来不错在上线前被拦下。

Claude写代码,Claude审代码,Claude抓东谈主类错过的问题。下一步很当然,Claude审Claude写的代码。再下一步,Claude缠绵让Claude变得更强的实验。

这即是递归自我校正的雏形。

Anthropic很严慎。它反复强调,完整递归自我校正还莫得发生,也不一定势必发生。今天的Claude仍然有短板。尤其是连络试吃和判断力。什么问题值得作念,什么认识有出路,什么效果的确,什么时候应该废弃一条阶梯,这些仍然是东谈主类的比拟上风。

但最危急的问题也在这里。咱们凭什么驯顺连络试吃不会被AI攻克?

昔时几年,好多才略都阅历过肖似弧线。伊始,大家说AI不懂幽默、不懂面孔、不懂复杂推理、不懂真实寰球。然后某一天,它倏得就会了。连络试吃可能亦然这么。它也许不是巧妙才略。它可能仅仅敷裕多实验、敷裕多响应、敷裕长高下文、敷裕强用具调用之后显现出来的判断函数。

即使AI耐久莫得顶级连络试吃,寰球也会被变调。因为推行本钱也曾被大幅压低。东谈主类只有作念5%的认识选拔,AI处理剩下95%的推行责任,每个连络员能退换的责任量就会远跳跃去。

这会重塑公司。一个100东谈主的团队,不错作念昔时1000东谈主的事,将来以致可能作念1万东谈主、10万东谈主的事。常识责任的范畴经济会被从头界说。公司不再只靠招东谈主推广,而是靠每个东谈主底下挂若干Agent,靠组织能不行快速发现瓶颈,能不行把新瓶颈络续自动化。

Anthropic提到了阿姆达尔定律。一个进程的总速率,受限于莫得被加快的部分。代码写快了,代码审查酿成瓶颈。实验跑快了,判断哪些实验值得跑酿成瓶颈。思法爆炸了,组织消化才略酿成瓶颈。

这会带来一种相等奇怪的新寰球。AI让每个东谈主都变强,但组织不一定坐窝变贤达。出产力爆炸,管理才略可能跟不上。思法越来越多,防范力越来越稀缺。推行越来越低廉,判断越来越昂然。

AG真人中国官方网站

对东谈主类来说,这既是宏大契机,亦然宏大风险。

医学、材料、动力、软件安全、基础科学,都可能被AI科研系统加快。若是AI能帮咱们更快跑实验、更快发现药物靶点、更快缠绵材料、更快找出系统裂缝,东谈主类社会会得回宏大的技艺红利。

Anthropic提到Project Glasswing。Mythos Preview在上线前几周,就在全球伏击系统中发现跳跃1万个高危和严重级软件裂缝。昔时蚁合安全的瓶颈是找不到裂缝,当今可能酿成补不外来。

这很像将来科学立异的缩影。昔时瓶颈是发现,以后瓶颈可能酿成考据、部署、监管和社会接收。AI实验室不错跑得像火箭,但东谈主类社会仍然有病院审批、药物临床、法律要领、伦理争议、选举周期、教师系统、家庭干系。这些东西不会因为算力进步就立即隐匿。

是以,AI与东谈主类的将来不会是整夜之间全部翻篇。更可能是一种扯破。上游研发以算力速率决骤。卑劣社会以轨制速率、体魄速率、信任速率渐渐消化。

风险也雷同赫然。若是AI真实能我方构建下一代AI,对都问题会被放大。今天模子里偶尔出现的辞别都、欺诈、认识偏移、用具销耗,在自我迭代过程中可能握住累积。每一代系统都更强,也更难协调。到某个节点,东谈主类可能也曾看不懂它为什么这么作念,也追不上它迭代的速率。

这即是Anthropic临了号令减慢以致暂停前沿AI诱惑的原因。

真实有益旨的暂停,必须是多个国度、多个资源充足的前沿实验室,在并吞条目下可考据地减慢或罢手。大家必须能证据别东谈主莫得悄悄络续测验。也必须界说明晰,什么条目触发暂停,什么条目湮灭暂停,由谁裁决。

这听起来很理思化,也很贫寒。测验大模子不像导弹辐照井那么容易监控。算力、数据、电力、芯片都是通用资源。悄悄测验的激发相等强。谁在别东谈主暂停时络续前进,谁就可能采选最初上风。

但Anthropic至少建议了一个伏击判断。AI发展速率也曾快到不行只靠公司自律,社会需要一种可操作的刹车机制。刹车不一定连忙踩下去,但必须先造出来。不然真到需要刹车的时候,可能也曾莫得认识盘了。

我觉得,这篇著作真实巧得关怀的是,东谈主类服务的中枢界说正在变化。

当今推行被外包以后,认识自己也在被压缩成更少数东谈主的才略。会判断的东谈主,价值飞腾。不会判断的东谈主,仅仅把我方的操作才略交出去,然后发现我方不再协调系统。

爱迪生说,天才是1%灵感加99%汗水。当今99%的汗水正在被自动化。但灵感并不老是编造出现。好多判断力,恰是从耐久亲手试错、耐久被系统折磨、耐久在失败里积攒出来的。

若是一个东谈主从不写代码,从不跑实验,从不排查崩溃,从不阅历脏活累活,他将来还能不行领有真实的判断力?这可能是AI期间最被低估的问题。

AI与东谈主类的将来,最佳的模式不该是东谈主类绝对废弃推行,然后只作念空泛的指导。真实强的东谈主类,应该学会和AI一都扩大推行半径,同期保留对重要过程的协调才略。你不错不亲手敲每一滑代码,但你必应知谈系统为什么这么责任。你不错让AI跑100个实验,但你必应知谈哪些效果值得信,哪些效果仅仅漂亮杂音。

Anthropic这篇著作深层讲的是,东谈主类如安在一个自我加快的智能系统阁下,保住我方的位置。

认识盘还在东谈主类手里。但手也曾驱动发抖。更准确地说,认识盘也许还在,仅仅车速也曾越来越不像东谈主类缠绵谈路时思象的速率。

若是AI真实驱动建造我方世界杯(中国),东谈主类最伏击的任务就不再是评释我方比AI贤达。那很可能是一场必输的比赛。东谈主类更伏击的任务,是决定什么样的智能值得被建造,什么样的将来仍然配得上被称为东谈主类的将来。