AI加速进化中的风险与挑战

发布时间：2026-06-05 17:10阅读：35

最近AI领域有个话题非常值得关注。不是因为模型性能又提升了3%，也不是因为某个炫酷的演示，而是Anthropic发布的一篇文章，标题为When AI builds itself。翻译成中文就是：AI开始参与构建AI本身。

这听起来像是科幻电影的开头，但真正值得思考的，其实不是“AI是否会失控”这种老生常谈的担忧。

更应该注意的是，AI研发的节奏正在加快，快到可能超越组织的安全机制、审查流程和决策体系。

这问题更现实，也更棘手。

Anthropic在文章中透露了一个非常具体的数据：截至2026年5月，其代码库中超过80%的代码由Claude生成。

还有一个更惊人的数字：2026年第二季度，Anthropic的工程师平均每天合并的代码量大约是2024年的8倍。

这当然不是因为工程师们突然变得八倍效率，而是工作方式发生了根本变化。过去是工程师写代码，AI辅助补几行，现在则是工程师设定目标，AI负责写代码、运行、调试，再将结果提交给工程师审核。

工程师的角色从“亲自动手的编码员”转变为“同时指挥多个AI代理完成任务的人”。

如果这种变化只出现在普通软件公司，已经足够惊人。但发生在前沿AI公司，意义就更深远了。因为AI协助编写的，不只是普通业务代码，它也在参与改进下一代AI系统。

recursive self-improvement这个词的真正含义就在这里。它不是AI在深夜偷偷重写自己，而是AI开始参与训练基础设施、实验脚本、评估流程、代码审查和研究辅助。它尚未完全掌控方向，但已经显著加速了多个中间环节。

换句话说，过去AI的进步主要依赖人类团队的加班，而现在AI的进步则更多依赖AI对人类团队的加速。

一旦这个循环启动，速度将变得异常迅猛。

这类新闻容易被写成“AI即将失控”的故事，比如“AI开始自我复制”“人类即将失去控制”等。这种写法虽然吸引眼球，但问题在于它把重点搞错了。

Anthropic自己也承认，真正意义上的recursive self-improvement尚未发生，也不是必然趋势。目前更准确的状态是，AI已经能帮助研发团队更快速地完成大量工作，但关键决策仍在人类手中。

例如，AI非常擅长执行明确的目标。你告诉它“优化这段训练代码，同时保持正确性”，它就能不断修改代码、运行实验、计时、再修改。

Anthropic提到一个例子，2025年5月的Claude Opus 4在类似任务上平均能实现约3倍的加速。到2026年4月，Mythos Preview已经能实现约52倍的加速。

这确实令人震惊。但真正令人担忧的不是“它有自己的野心”，而是原本需要人工反复试错的任务，现在可以被高速自动化。

过去需要人手动写脚本、排实验、等结果、查日志、修bug，现在这些工作中的大部分可以交给AI代理完成。人类仍然负责选择方向，但一旦方向确定，执行效率大幅提升。

这将改变研发组织的权力结构。谁能提出好问题、判断结果是否可信、决定何时停止，变得比谁亲自写代码更重要。

同一天另一个信号也很有意思。Anthropic开源了一个名为defending-code-reference-harness的项目。它不负责聊天或写文案，而是为安全团队设计的。

这个项目包括威胁建模、扫描、漏洞分类、补丁，以及一个可定制的自动扫描框架。它甚至提供了一个具体的工作流程。

第一天：建立威胁模型，运行第一次静态扫描和分类。第二天：在C/C++库上运行参考流程。第三到第五天：根据目标定制流程。第二周：开始自动扫描、分类和打补丁。

这已经超越了“AI能提升安全”的口号，而是一套完整的流程。

更重要的是，它建议团队将扫描纳入软件开发生命周期（SDLC），甚至做成每日、每周的周期扫描，或接入CI流程。这说明AI安全正在从“专家经验”转变为“工程流水线”。

过去找漏洞像手工搜山，现在更像派出一批并行代理去扫描。问题也随之改变。

瓶颈不再在于找漏洞，而在于确认、修复和排序。

这与AI自我改进其实是同一个问题。当执行速度提升后，人类的审核、判断和组织协调将成为新的瓶颈。

再看OpenAI。它最近的审核文档中，为开发者提供了更详细的审核结果。它不会只告诉你“这条内容有问题”，而是返回每个类别的标记和分类评分。

例如，输入是否涉及暴力、自残、骚扰等，不只是简单的布尔值，还会返回0到1的置信分数。

这听起来很琐碎，但对企业接入AI非常重要。因为大规模AI应用不可能靠人工逐个审核输出。你必须将安全信号接入工作流。

低风险内容自动通过，中风险内容进入人工复核，高风险内容直接阻断，或降级到更保守的模型。这不是道德宣言，而是产品逻辑。

而且OpenAI文档中也提醒，依赖分类评分制定自定义策略时，未来模型升级后可能需要重新校准。这句话很实在。它等于承认了一件事：AI安全不能一次配置好就完事。

它会随着模型变化、场景变化、用户行为变化不断调整。也就是说，AI系统越强，安全系统也要跟着演化。

我们平时想AI风险，脑子里容易出现一个画面：某个超级智能突然醒来，然后宣布人类没用了。

这个画面太戏剧化，反而遮住了更可能先发生的风险。更现实的画面是这样的：一个团队接入了AI代理，代码产出变成原来的几倍，实验数量变成原来的几十倍，安全扫描也变成自动化。每个人都感觉效率爆炸。

然后问题来了。

谁知道哪些代码真的被理解过？谁知道哪些实验结果只是偶然跑出来的？谁知道哪些漏洞已经被发现但还没来得及修？谁知道自动审查员有没有漏掉一种新型错误？

这类问题没有电影感，但它们会真实地出现在每个组织里，尤其是做AI产品的公司。

AI让你从1个员工变成10个员工的产能，听起来很好。但如果你的审核系统、权限系统、日志系统、回滚系统还停留在1个人干活的水平，那效率越高，风险也越高。

这才是我觉得今天最值得写的地方。AI并没有一夜之间有了灵魂，很多公司更可能遇到的情况是，在没准备好的时候，突然拥有一台跑得很快的机器。

AI自我改进最先改变的，不是机器有没有意识，是人类还能不能审得过来。

这句话我觉得可以先放在这里。它比“AI会不会失控”更接近当下的问题。

因为失控不一定从一场大战开始。它可能从一个很普通的工作流开始，代码太多，看不过来。实验太多，复核不过来。漏洞太多，修不过来。模型更新太快，策略校准不过来。

每一步看起来都合理。合在一起，就变成了组织能力的压力测试。

就算你不在Anthropic，也不在OpenAI，这件事一样有关系。因为今天发生在前沿模型公司的事，明天会扩散到普通公司。

以前一个100人团队能做100人的事。后来有了AI，可能做300人、500人的事。再往后，可能一个小团队能同时跑产品、销售、客服、代码、内容、数据分析。

听起来像创业者的天堂。但我越来越觉得，AI时代最稀缺的已经不是“执行力”。执行力会越来越便宜，更稀缺的是判断。

你要知道什么值得做，什么结果能信，什么时候该让AI继续跑，什么时候该让人停下来复盘。你还要知道，哪些事情不能因为AI做得快，就自动进入生产环境。

对企业来说，接入AI代理之前，至少要想清楚几件事。

第一，AI做过什么，要留下记录。

第二，AI产出的关键结果，要有人类复核节点。

第三，高风险动作要有权限边界。

第四，安全策略不能只写在文档里，要进系统。

第五，模型和策略升级后，要有重新校准的机制。

这些东西听起来不性感，但它们才是AI进入企业之后的地基。没有这些，AI越强，系统越脆。

Anthropic那篇文章里有一个判断很重要。AI现在很擅长“执行一个别人设定好的目标”。但在“选择什么目标值得做”这件事上，人类仍然有优势。

这也是我自己用AI工作流时最明显的感受。AI很适合帮我采集资料、交叉验证、列大纲、生成初稿、做审校。但最终我还是要决定，今天这篇文章到底写什么。

写“AI失控”很容易。写“速度超过治理”更准确。这个判断不能完全交给模型，因为它涉及读者是谁，今天的语境是什么，哪些

← 上一篇：高考倒计时：AI时代备考全攻略——让智能工具助力而非取代学习下一篇：奔驰纯电GLC SUV预售启动，鎏金版首发亮相 →