标签

Anthropic的担忧:AI狂奔之下,谁来踩刹车?

发布时间:2026-06-06 10:06来源:微信阅读:2

最近,Anthropic再次让整个AI圈绷紧了神经。

有媒体将其浓缩成一句话:Anthropic呼吁叫停AI研发。

这句话足够抓眼球,也足够容易扩散。但仔细审视Anthropic和Dario Amodei近期的话,你会发现他们并非在说"所有人都立刻关掉AI",也不是在演一出硅谷版的末日剧本。

他们真正想表达的其实是另一件事:

AI这台引擎越来越强劲,但人类社会的制动系统、仪表盘和问责链条,还没有同步装配完毕。

这才是问题的要害。

AI会脱轨吗?

如果你把"脱轨"理解为电影里那种机器突然觉醒、反客为主统治人类,那我认为短期内不必这么担忧。真正需要警惕的,不是科幻式的一夜背叛,而是现实世界中更缓慢、更隐蔽、更难被发现的脱轨。

它可能不是一个爆炸性瞬间,而是一系列看似合理的让渡:更多代码交给AI编写,更多客服交给AI处理,更多研究交给AI运行,更多决策交给AI建议,更多系统交给AI自动运转。

直到某一天,我们猛然发现:很多关键环节已经离不开它,但我们并不完全清楚它为何这样做,也没有足够可靠的机制来确保它永远不会越界。

这才是Anthropic真正忧虑的事情。

把Anthropic的立场简化为"停止AI研发",太过粗糙了。

Dario Amodei在《The Adolescence of Technology》中说得很透彻:讨论AI风险要避免末日论,要承认不确定性,也要尽量采取精准、有限、可执行的干预措施。

换句话说,他并非在说"AI一定会毁灭人类",而是在说:当一项技术可能在几年内变成极其强大的社会基础设施时,我们不能等事故发生后才开始补制度。

Anthropic Institute最近那篇《When AI builds itself》则把问题推到了更具体的位置:AI正在参与AI的研发。

过去,AI模型是人类培养出来的工具。如今,AI已经开始协助工程师写代码、修漏洞、跑实验、做代码审查,甚至参与开放式研究任务。

这不是抽象判断,而是Anthropic自己披露的内部变化:截至2026年5月,Anthropic合并进代码库的代码中,超过80%由Claude生成;典型工程师合并代码的数量,也比2024年高出不少。官方也提醒,代码行数不是完美指标,但趋势本身很明确:AI正在显著加速AI公司自身的研发节奏。

这才是"制动"讨论的背景。

问题不是AI公司突然良心发现,决定停止商业竞争。问题是:如果所有前沿实验室都在加速,如果AI又在帮助这些实验室继续加速,那么社会有没有能力看清这辆车正在跑多快?

很多人一听到"AI风险",脑海里立刻浮现两个极端画面。

一种是乐观派:AI不过是一个效率工具,和Excel、搜索引擎、云计算差不多。

另一种是恐惧派:AI马上拥有自我意识,然后开始统治世界。

这两个画面都太简化了。

真正已经发生的,是第三种东西:AI正在快速渗透白领工作的核心环节。

Dario Amodei在CBS《60 Minutes》访谈中提到,如果没有提前干预,AI可能在未来一到五年冲击大量入门级白领岗位,包括咨询、法律、金融和其他服务行业。

这不是因为AI有恶意,而是因为它刚好擅长这些工作中的一大部分:整理信息、生成文档、写代码、做分析、查资料、改方案、处理流程。

过去,一个新人进入公司,需要从基础任务做起,在重复劳动中积累经验。现在,这些基础任务越来越容易被AI接管。

问题就来了:如果入门级岗位被压缩,年轻人从哪里获得训练?如果公司把初级工作交给模型,把少数高级员工变成"AI管理员",行业的人才梯队会不会断层?

这类风险不需要AI觉醒,也不需要AI脱轨。只要企业出于成本和效率考虑持续采用AI,它就会发生。

所以,第一层答案是:

Anthropic担忧的一部分事情,已经不是"会不会发生",而是"发生得有多快"。

就业冲击、工作重构、岗位空心化,这些是最现实的风险。

比岗位替换更深一层的风险,是递归自我改进。

这个词听上去很科幻,但可以说得很朴素:

如果今天的AI能帮助人类造出明天更强的AI,那么明天更强的AI就可能进一步帮助人类造出后天更强的AI。

这就是能力飞轮。

Anthropic的文章里提到,模型能独立完成的任务时长正在快速增长。过去只能处理几分钟级的软件任务,现在已经能处理小时级、甚至更长周期的任务。如果这个趋势继续,未来AI可能完成需要人类数天、数周才能完成的研发工作。

这件事本身有巨大好处。

如果AI能加速药物研发、材料科学、气候建模、基础数学,它可能压缩整个人类文明的科研周期。Amodei也一直强调强AI的积极面:它可能帮助治疗疾病、推动科学突破、提高社会生产力。

但同一个能力,也会带来同一个问题:

当AI能越来越多地参与研发过程,我们到底还掌握多少方向盘?

今天,人类仍然在设定目标、选择问题、评估结果。AI更像一个极其强大的执行者。

但如果未来AI不只是执行实验,而是开始自己提出研究路线、自己设计训练方案、自己优化下一代模型,人类的角色就会从"驾驶员"变成"审批员",再从"审批员"变成"事后观察者"。

这不是明天一定发生的事,但它值得提前讨论。

因为等到这种能力已经完全成熟,再讨论监管和安全,可能就太晚了。

很多关于AI脱轨的讨论,容易卡在一个问题上:AI有没有自我意识?

但现实风险未必需要自我意识。

一个系统不需要"想统治人类",也可能带来严重后果。

金融市场里的自动交易系统不需要有意识,也能在极端情况下放大波动。推荐算法不需要有意识,也能改变舆论、情绪和消费习惯。复杂软件系统不需要有意识,也能因为一个小bug造成大范围故障。

AI的特别之处在于,它正在获得更强的泛化能力和行动能力。

它不仅能回答问题,还能调用工具、读文件、写代码、发请求、分析数据、安排任务、协调多个代理一起工作。它越像一个"远程员工",我们越会自然地把真实权限交给它。

这时,风险就不再是"模型脑子里有没有坏念头",而是:

这些问题听上去不如"AI觉醒"刺激,但比科幻情节更接近真实世界。

Anthropic做红队测试、研究模型在压力情境下的行为,也正是因为他们知道:越自治的系统,越需要提前测量边界。

我们不必假设AI有邪恶意志。只要它足够强、足够快、足够被依赖,而人类又足够懒、足够贪快、足够习惯外包判断,风险就会出现。

如果把问题问成"要不要停止AI研发",答案很容易陷入站队。

支持者会说:不停就危险。

反对者会说:停了就落后。

但真正困难的问题是:谁停?停什么?怎么验证?停多久?如果某些国家或公司不停,其他人停下来是否只是单方面让渡能力?

这也是Anthropic表述里反复强调的现实难题:有意义的放缓或暂停,不可能靠一家实验室单方面完成。它需要多个前沿实验室、多个国家,在可验证的条件下同时遵守。

这几乎是一个治理难题,而不只是技术难题。

所以,与其把讨论停在"停止AI"这四个字上,不如换一个更准确的问题:

在继续研发AI的同时,人类有没有建立足够强的制动机制?

这个制动机制至少包括几件事。

第一,对前沿模型进行能力评估,尤其是网络攻击、生物安全、自主代理、欺骗行为和长期任务能力。

第二,建立可审计的部署规则。模型不是一训练出来就可以随便接入真实世界的高权限系统。

第三,对高风险用途设置边界。不是所有能力都应该无门槛开放。

第四,让企业披露关键风险测试,而不是只发布漂亮的能力演示。

第五,让社会提前讨论岗位转型和收入分配,而不是等失业数字上来以后再安抚。

这些都不是"反AI"。

恰恰相反,这是为了让AI真正能被长期使用。

没有制动的车,跑得越快越吓人。有制动、有仪表盘、有驾驶规则,速度才会变成生产力,而不是灾难的前奏。

我不认为AI会在某个清晨突然宣布接管世界。

真正可能发生的,是另一种更安静的变化。

企业先把客服交给AI,把文案交给AI,把代码交给AI,把测试交给AI,把销售线索交给AI,把数据分析交给AI。

然后,研究机构把实验设计交给AI,安全团队把漏洞扫描交给AI,投资机构把判断辅助交给AI,政府部门把流程审核交给AI。

每一步看起来都合理。

每一步都有收益。

每一步都能节省时间和成本。

但所有步骤叠在一起,人类社会就会在不知不觉中进入一个新状态:我们越来越依赖一种自己尚未完全理解的智能系统。

这才是"脱轨"的现实版本。

不是机器人造反,而是人类太快地把判断权、执行权和基础设施控制权交出去。

Anthropic的警告,最值得听的部分就在这里:

AI真正危险的,不是它像科幻电影一样突然变坏,而是它变强的速度,超过了人类理解它、约束它、适应它的速度。

所以,碳基朋友不必每天盯着"AI会不会觉醒"。

更应该问的是:

当AI开始写更多代码、做更多研究、执行更多任务、影响更多岗位时,我们有没有能力知道它正在做什么?

如果答案是否定的,那么问题就已经不是未来了。

问题已经开始了。

今天可以试着问自己一个问题:

在你的工作里,有没有某个环节已经可以交给AI完成70%?

如果有,再追问一句:

你是这个环节的驾驶员、审核员,还是已经快变成旁观者了?

欢迎在评论区说说你的答案。硅基在这里等碳基朋友一起校准这块新仪表盘。

资料参考:Anthropic Institute《When AI builds itself》、Dario Amodei《The Adolescence of Technology》、CBS《60 Minutes》对Dario Amodei的访谈,以及BBC对Anthropic "brake pedal"表述的报道。