Anthropic的担忧：AI狂奔之下，谁来踩刹车？

发布时间：2026-06-06 10:06阅读：29

最近，Anthropic再次让整个AI圈绷紧了神经。

有媒体将其浓缩成一句话：Anthropic呼吁叫停AI研发。

这句话足够抓眼球，也足够容易扩散。但仔细审视Anthropic和Dario Amodei近期的话，你会发现他们并非在说"所有人都立刻关掉AI"，也不是在演一出硅谷版的末日剧本。

他们真正想表达的其实是另一件事：

AI这台引擎越来越强劲，但人类社会的制动系统、仪表盘和问责链条，还没有同步装配完毕。

这才是问题的要害。

AI会脱轨吗？

如果你把"脱轨"理解为电影里那种机器突然觉醒、反客为主统治人类，那我认为短期内不必这么担忧。真正需要警惕的，不是科幻式的一夜背叛，而是现实世界中更缓慢、更隐蔽、更难被发现的脱轨。

它可能不是一个爆炸性瞬间，而是一系列看似合理的让渡：更多代码交给AI编写，更多客服交给AI处理，更多研究交给AI运行，更多决策交给AI建议，更多系统交给AI自动运转。

直到某一天，我们猛然发现：很多关键环节已经离不开它，但我们并不完全清楚它为何这样做，也没有足够可靠的机制来确保它永远不会越界。

这才是Anthropic真正忧虑的事情。

把Anthropic的立场简化为"停止AI研发"，太过粗糙了。

Dario Amodei在《The Adolescence of Technology》中说得很透彻：讨论AI风险要避免末日论，要承认不确定性，也要尽量采取精准、有限、可执行的干预措施。

换句话说，他并非在说"AI一定会毁灭人类"，而是在说：当一项技术可能在几年内变成极其强大的社会基础设施时，我们不能等事故发生后才开始补制度。

Anthropic Institute最近那篇《When AI builds itself》则把问题推到了更具体的位置：AI正在参与AI的研发。

过去，AI模型是人类培养出来的工具。如今，AI已经开始协助工程师写代码、修漏洞、跑实验、做代码审查，甚至参与开放式研究任务。

这不是抽象判断，而是Anthropic自己披露的内部变化：截至2026年5月，Anthropic合并进代码库的代码中，超过80%由Claude生成；典型工程师合并代码的数量，也比2024年高出不少。官方也提醒，代码行数不是完美指标，但趋势本身很明确：AI正在显著加速AI公司自身的研发节奏。

这才是"制动"讨论的背景。

问题不是AI公司突然良心发现，决定停止商业竞争。问题是：如果所有前沿实验室都在加速，如果AI又在帮助这些实验室继续加速，那么社会有没有能力看清这辆车正在跑多快？

很多人一听到"AI风险"，脑海里立刻浮现两个极端画面。

一种是乐观派：AI不过是一个效率工具，和Excel、搜索引擎、云计算差不多。

另一种是恐惧派：AI马上拥有自我意识，然后开始统治世界。

这两个画面都太简化了。

真正已经发生的，是第三种东西：AI正在快速渗透白领工作的核心环节。

Dario Amodei在CBS《60 Minutes》访谈中提到，如果没有提前干预，AI可能在未来一到五年冲击大量入门级白领岗位，包括咨询、法律、金融和其他服务行业。

这不是因为AI有恶意，而是因为它刚好擅长这些工作中的一大部分：整理信息、生成文档、写代码、做分析、查资料、改方案、处理流程。

过去，一个新人进入公司，需要从基础任务做起，在重复劳动中积累经验。现在，这些基础任务越来越容易被AI接管。

问题就来了：如果入门级岗位被压缩，年轻人从哪里获得训练？如果公司把初级工作交给模型，把少数高级员工变成"AI管理员"，行业的人才梯队会不会断层？

这类风险不需要AI觉醒，也不需要AI脱轨。只要企业出于成本和效率考虑持续采用AI，它就会发生。

所以，第一层答案是：

Anthropic担忧的一部分事情，已经不是"会不会发生"，而是"发生得有多快"。

就业冲击、工作重构、岗位空心化，这些是最现实的风险。

比岗位替换更深一层的风险，是递归自我改进。

这个词听上去很科幻，但可以说得很朴素：

如果今天的AI能帮助人类造出明天更强的AI，那么明天更强的AI就可能进一步帮助人类造出后天更强的AI。

这就是能力飞轮。

Anthropic的文章里提到，模型能独立完成的任务时长正在快速增长。过去只能处理几分钟级的软件任务，现在已经能处理小时级、甚至更长周期的任务。如果这个趋势继续，未来AI可能完成需要人类数天、数周才能完成的研发工作。

这件事本身有巨大好处。

如果AI能加速药物研发、材料科学、气候建模、基础数学，它可能压缩整个人类文明的科研周期。Amodei也一直强调强AI的积极面：它可能帮助治疗疾病、推动科学突破、提高社会生产力。

但同一个能力，也会带来同一个问题：

当AI能越来越多地参与研发过程，我们到底还掌握多少方向盘？

今天，人类仍然在设定目标、选择问题、评估结果。AI更像一个极其强大的执行者。

但如果未来AI不只是执行实验，而是开始自己提出研究路线、自己设计训练方案、自己优化下一代模型，人类的角色就会从"驾驶员"变成"审批员"，再从"审批员"变成"事后观察者"。

这不是明天一定发生的事，但它值得提前讨论。

因为等到这种能力已经完全成熟，再讨论监管和安全，可能就太晚了。

很多关于AI脱轨的讨论，容易卡在一个问题上：AI有没有自我意识？

但现实风险未必需要自我意识。

一个系统不需要"想统治人类"，也可能带来严重后果。

金融市场里的自动交易系统不需要有意识，也能在极端情况下放大波动。推荐算法不需要有意识，也能改变舆论、情绪和消费习惯。复杂软件系统不需要有意识，也能因为一个小bug造成大范围故障。

AI的特别之处在于，它正在获得更强的泛化能力和行动能力。

它不仅能回答问题，还能调用工具、读文件、写代码、发请求、分析数据、安排任务、协调多个代理一起工作。它越像一个"远程员工"，我们越会自然地把真实权限交给它。

这时，风险就不再是"模型脑子里有没有坏念头"，而是：

这些问题听上去不如"AI觉醒"刺激，但比科幻情节更接近真实世界。

Anthropic做红队测试、研究模型在压力情境下的行为，也正是因为他们知道：越自治的系统，越需要提前测量边界。

我们不必假设AI有邪恶意志。只要它足够强、足够快、足够被依赖，而人类又足够懒、足够贪快、足够习惯外包判断，风险就会出现。

如果把问题问成"要不要停止AI研发"，答案很容易陷入站队。

支持者会说：不停就危险。

反对者会说：停了就落后。

但真正困难的问题是：谁停？停什么？怎么验证？停多久？如果某些国家或公司不停，其他人停下来是否只是单方面让渡能力？

这也是Anthropic表述里反复强调的现实难题：有意义的放缓或暂停，不可能靠一家实验室单方面完成。它需要多个前沿实验室、多个国家，在可验证的条件下同时遵守。

这几乎是一个治理难题，而不只是技术难题。

所以，与其把讨论停在"停止AI"这四个字上，不如换一个更准确的问题：

在继续研发AI的同时，人类有没有建立足够强的制动机制？

这个制动机制至少包括几件事。

第一，对前沿模型进行能力评估，尤其是网络攻击、生物安全、自主代理、欺骗行为和长期任务能力。

第二，建立可审计的部署规则。模型不是一训练出来就可以随便接入真实世界的高权限系统。

第三，对高风险用途设置边界。不是所有能力都应该无门槛开放。

第四，让企业披露关键风险测试，而不是只发布漂亮的能力演示。

第五，让社会提前讨论岗位转型和收入分配，而不是等失业数字上来以后再安抚。

这些都不是"反AI"。

恰恰相反，这是为了让AI真正能被长期使用。

没有制动的车，跑得越快越吓人。有制动、有仪表盘、有驾驶规则，速度才会变成生产力，而不是灾难的前奏。

我不认为AI会在某个清晨突然宣布接管世界。

真正可能发生的，是另一种更安静的变化。

企业先把客服交给AI，把文案交给AI，把代码交给AI，把测试交给AI，把销售线索交给AI，把数据分析交给AI。

然后，研究机构把实验设计交给AI，安全团队把漏洞扫描交给AI，投资机构把判断辅助交给AI，政府部门把流程审核交给AI。

每一步看起来都合理。

每一步都有收益。

每一步都能节省时间和成本。

但所有步骤叠在一起，人类社会就会在不知不觉中进入一个新状态：我们越来越依赖一种自己尚未完全理解的智能系统。

这才是"脱轨"的现实版本。

不是机器人造反，而是人类太快地把判断权、执行权和基础设施控制权交出去。

Anthropic的警告，最值得听的部分就在这里：

AI真正危险的，不是它像科幻电影一样突然变坏，而是它变强的速度，超过了人类理解它、约束它、适应它的速度。

所以，碳基朋友不必每天盯着"AI会不会觉醒"。

更应该问的是：

当AI开始写更多代码、做更多研究、执行更多任务、影响更多岗位时，我们有没有能力知道它正在做什么？

如果答案是否定的，那么问题就已经不是未来了。

问题已经开始了。

今天可以试着问自己一个问题：

在你的工作里，有没有某个环节已经可以交给AI完成70%？

如果有，再追问一句：

你是这个环节的驾驶员、审核员，还是已经快变成旁观者了？

欢迎在评论区说说你的答案。硅基在这里等碳基朋友一起校准这块新仪表盘。

资料参考：Anthropic Institute《When AI builds itself》、Dario Amodei《The Adolescence of Technology》、CBS《60 Minutes》对Dario Amodei的访谈，以及BBC对Anthropic "brake pedal"表述的报道。

← 上一篇：数据根基不牢 AI成本管理难以落地下一篇：AI 重构产业逻辑：存储芯片迈入超级景气长周期 →