标签

AI加速进化中的风险与挑战

发布时间:2026-06-05 17:10来源:微信阅读:1

最近AI领域有个话题非常值得关注。不是因为模型性能又提升了3%,也不是因为某个炫酷的演示,而是Anthropic发布的一篇文章,标题为When AI builds itself。翻译成中文就是:AI开始参与构建AI本身。

这听起来像是科幻电影的开头,但真正值得思考的,其实不是“AI是否会失控”这种老生常谈的担忧。

更应该注意的是,AI研发的节奏正在加快,快到可能超越组织的安全机制、审查流程和决策体系。

这问题更现实,也更棘手。

Anthropic在文章中透露了一个非常具体的数据:截至2026年5月,其代码库中超过80%的代码由Claude生成。

还有一个更惊人的数字:2026年第二季度,Anthropic的工程师平均每天合并的代码量大约是2024年的8倍。

这当然不是因为工程师们突然变得八倍效率,而是工作方式发生了根本变化。过去是工程师写代码,AI辅助补几行,现在则是工程师设定目标,AI负责写代码、运行、调试,再将结果提交给工程师审核。

工程师的角色从“亲自动手的编码员”转变为“同时指挥多个AI代理完成任务的人”。

如果这种变化只出现在普通软件公司,已经足够惊人。但发生在前沿AI公司,意义就更深远了。因为AI协助编写的,不只是普通业务代码,它也在参与改进下一代AI系统。

recursive self-improvement这个词的真正含义就在这里。它不是AI在深夜偷偷重写自己,而是AI开始参与训练基础设施、实验脚本、评估流程、代码审查和研究辅助。它尚未完全掌控方向,但已经显著加速了多个中间环节。

换句话说,过去AI的进步主要依赖人类团队的加班,而现在AI的进步则更多依赖AI对人类团队的加速。

一旦这个循环启动,速度将变得异常迅猛。

这类新闻容易被写成“AI即将失控”的故事,比如“AI开始自我复制”“人类即将失去控制”等。这种写法虽然吸引眼球,但问题在于它把重点搞错了。

Anthropic自己也承认,真正意义上的recursive self-improvement尚未发生,也不是必然趋势。目前更准确的状态是,AI已经能帮助研发团队更快速地完成大量工作,但关键决策仍在人类手中。

例如,AI非常擅长执行明确的目标。你告诉它“优化这段训练代码,同时保持正确性”,它就能不断修改代码、运行实验、计时、再修改。

Anthropic提到一个例子,2025年5月的Claude Opus 4在类似任务上平均能实现约3倍的加速。到2026年4月,Mythos Preview已经能实现约52倍的加速。

这确实令人震惊。但真正令人担忧的不是“它有自己的野心”,而是原本需要人工反复试错的任务,现在可以被高速自动化。

过去需要人手动写脚本、排实验、等结果、查日志、修bug,现在这些工作中的大部分可以交给AI代理完成。人类仍然负责选择方向,但一旦方向确定,执行效率大幅提升。

这将改变研发组织的权力结构。谁能提出好问题、判断结果是否可信、决定何时停止,变得比谁亲自写代码更重要。

同一天另一个信号也很有意思。Anthropic开源了一个名为defending-code-reference-harness的项目。它不负责聊天或写文案,而是为安全团队设计的。

这个项目包括威胁建模、扫描、漏洞分类、补丁,以及一个可定制的自动扫描框架。它甚至提供了一个具体的工作流程。

第一天:建立威胁模型,运行第一次静态扫描和分类。第二天:在C/C++库上运行参考流程。第三到第五天:根据目标定制流程。第二周:开始自动扫描、分类和打补丁。

这已经超越了“AI能提升安全”的口号,而是一套完整的流程。

更重要的是,它建议团队将扫描纳入软件开发生命周期(SDLC),甚至做成每日、每周的周期扫描,或接入CI流程。这说明AI安全正在从“专家经验”转变为“工程流水线”。

过去找漏洞像手工搜山,现在更像派出一批并行代理去扫描。问题也随之改变。

瓶颈不再在于找漏洞,而在于确认、修复和排序。

这与AI自我改进其实是同一个问题。当执行速度提升后,人类的审核、判断和组织协调将成为新的瓶颈。

再看OpenAI。它最近的审核文档中,为开发者提供了更详细的审核结果。它不会只告诉你“这条内容有问题”,而是返回每个类别的标记和分类评分。

例如,输入是否涉及暴力、自残、骚扰等,不只是简单的布尔值,还会返回0到1的置信分数。

这听起来很琐碎,但对企业接入AI非常重要。因为大规模AI应用不可能靠人工逐个审核输出。你必须将安全信号接入工作流。

低风险内容自动通过,中风险内容进入人工复核,高风险内容直接阻断,或降级到更保守的模型。这不是道德宣言,而是产品逻辑。

而且OpenAI文档中也提醒,依赖分类评分制定自定义策略时,未来模型升级后可能需要重新校准。这句话很实在。它等于承认了一件事:AI安全不能一次配置好就完事。

它会随着模型变化、场景变化、用户行为变化不断调整。也就是说,AI系统越强,安全系统也要跟着演化。

我们平时想AI风险,脑子里容易出现一个画面:某个超级智能突然醒来,然后宣布人类没用了。

这个画面太戏剧化,反而遮住了更可能先发生的风险。更现实的画面是这样的:一个团队接入了AI代理,代码产出变成原来的几倍,实验数量变成原来的几十倍,安全扫描也变成自动化。每个人都感觉效率爆炸。

然后问题来了。

谁知道哪些代码真的被理解过?谁知道哪些实验结果只是偶然跑出来的?谁知道哪些漏洞已经被发现但还没来得及修?谁知道自动审查员有没有漏掉一种新型错误?

这类问题没有电影感,但它们会真实地出现在每个组织里,尤其是做AI产品的公司。

AI让你从1个员工变成10个员工的产能,听起来很好。但如果你的审核系统、权限系统、日志系统、回滚系统还停留在1个人干活的水平,那效率越高,风险也越高。

这才是我觉得今天最值得写的地方。AI并没有一夜之间有了灵魂,很多公司更可能遇到的情况是,在没准备好的时候,突然拥有一台跑得很快的机器。

AI自我改进最先改变的,不是机器有没有意识,是人类还能不能审得过来。

这句话我觉得可以先放在这里。它比“AI会不会失控”更接近当下的问题。

因为失控不一定从一场大战开始。它可能从一个很普通的工作流开始,代码太多,看不过来。实验太多,复核不过来。漏洞太多,修不过来。模型更新太快,策略校准不过来。

每一步看起来都合理。合在一起,就变成了组织能力的压力测试。

就算你不在Anthropic,也不在OpenAI,这件事一样有关系。因为今天发生在前沿模型公司的事,明天会扩散到普通公司。

以前一个100人团队能做100人的事。后来有了AI,可能做300人、500人的事。再往后,可能一个小团队能同时跑产品、销售、客服、代码、内容、数据分析。

听起来像创业者的天堂。但我越来越觉得,AI时代最稀缺的已经不是“执行力”。执行力会越来越便宜,更稀缺的是判断。

你要知道什么值得做,什么结果能信,什么时候该让AI继续跑,什么时候该让人停下来复盘。你还要知道,哪些事情不能因为AI做得快,就自动进入生产环境。

对企业来说,接入AI代理之前,至少要想清楚几件事。

第一,AI做过什么,要留下记录。

第二,AI产出的关键结果,要有人类复核节点。

第三,高风险动作要有权限边界。

第四,安全策略不能只写在文档里,要进系统。

第五,模型和策略升级后,要有重新校准的机制。

这些东西听起来不性感,但它们才是AI进入企业之后的地基。没有这些,AI越强,系统越脆。

Anthropic那篇文章里有一个判断很重要。AI现在很擅长“执行一个别人设定好的目标”。但在“选择什么目标值得做”这件事上,人类仍然有优势。

这也是我自己用AI工作流时最明显的感受。AI很适合帮我采集资料、交叉验证、列大纲、生成初稿、做审校。但最终我还是要决定,今天这篇文章到底写什么。

写“AI失控”很容易。写“速度超过治理”更准确。这个判断不能完全交给模型,因为它涉及读者是谁,今天的语境是什么,哪些