AI正在重塑工作模式
上个月,一位经营独立站八年的朋友分享了他的近况:他一人,辅以三个AI代理,成功管理七个网站,每月营收高达四十万美元。
我询问他是否感到辛苦,他回答说,这比他之前带领二十人团队时轻松得多。
这让我想起Ben Thompson在今年三月发表的《Agents Over Bubbles》一文中的观点——他认为AI并非泡沫,真正的转折点在于大型语言模型(LLM)的第三次进化:从ChatGPT的对话界面,到o1模型的推理内化,再到Claude Code和GPT Codex的自主执行能力。每一次进化都在吞噬更广阔的工作流程。
坦白说,两年前,大多数人仍将AI视为一个高级聊天机器人。你问它问题,它给出答案,偶尔还会出现虚构信息。去年,大家开始认真地利用AI进行代码编写、文案润色和翻译工作。但说实话,那仍属于“人类主导、AI辅助”的传统模式。
今年的变化才真正令人兴奋。
首先来看一组数据。NVIDIA发布的《State of AI》报告,针对3200多家企业进行了调查,结果显示48%的电信公司和47%的零售及消费品公司已开始应用Agentic AI——这并非被动问答的Copilot,而是能够自主规划、调用工具并执行任务的AI Agent。64%的企业正在“积极部署AI”,就连金融行业这个以保守著称的领域也开始引入AI技术。
这预示着什么?
许多人还在纠结“AI是否会取代某个特定岗位”时,真正值得关注的变革已经悄然发生:AI不会取代你个人,但它正在颠覆整个工作方式。
以我自身的经历为例。我曾帮助一位五金出口企业的老板构建AI询盘系统。他原有的流程是:业务员通过谷歌搜索客户信息→批量发送开发信→等待回复→手动录入CRM系统→进行报价→制作合同。这八名业务员,每天至少花费三小时进行纯粹的手动操作。这已不再是辛苦与否的问题,而是如同派遣八个人去拧螺丝,当全世界的螺丝都被机器拧完时,你还在原地重复。
我们对他的整个流程进行了拆解。AI爬虫自动搜寻目标客户,Agent撰写个性化的开发信(而非使用模板,而是根据客户网站内容生成),自动对客户意向进行分级,并将高意向客户直接推送至老板手机。
结果如何?他削减了六名业务员。这并非强制裁员——部分人员转向客户关系维护,有的则投身于产品升级,另外四人是因自然离职而未进行人员补充。营收不仅未降,反而增长了30%。
请勿误解,我并非鼓吹“AI必胜论”。坦白说,其中也存在不少挑战,我稍后会进行探讨。
Ben Thompson将LLM的演进概括为三波关键节点,我认为这个框架非常有洞察力。
第一波,2022年11月,ChatGPT将大语言模型从实验室的玩具变成了公众热议的话题。但当时的模型存在一个致命缺陷:它会“一本正经地胡说八道”。你可以使用它,但必须时刻保持警惕,如同管理一位聪明但不甚可靠的实习生。
第二波,2024年9月,OpenAI的o1模型实现了“推理内化”。简而言之,它在给出答案之前,会在内部进行多轮审视、查错和推敲,而非直接给出答案。这解决了关键的可靠性问题。模型的错误率显著降低,使得你可以更放心地让它处理更多任务。
第三波,才是真正的质变。预计在2025年底至2026年初,Anthropic的Opus 4.5和OpenAI的GPT-5.2-Codex将相继发布。起初,人们并未预料到会有惊天动地的变化——毕竟,基准测试提升一两个百分点,在正常不过了。直到开发者们发现:Claude Code能够独立构建项目。这已非简单的辅助编写小函数,而是你只需提出需求,它便能自行拆解任务、创建文件、编写代码、运行测试、修复错误并完成部署。整个流程一气呵成。
可以说,这标志着从“你手把手指挥AI执行任务”转变为“你设定目标,AI自行寻找达成路径”。
这项转变的核心技术,业界目前称之为“LLM大脑 + Code肌肉”的混合架构。大脑负责理解模糊的需求、进行推理和激发创意,而肌肉则负责精确执行。这并非让AI自由发挥,而是确保每一步操作都经过代码级别的验证。换言之,AI不再仅仅是一个会说话的“脑子”,它拥有了能够行动的“四肢”。
这让我想起上个月看到的一组对比数据:在SWE-Bench基准测试中,2024年初最优秀的AI编程工具仅能完成不到30%的工程任务。到了2026年4月,Claude Opus 4.7的SWE-Bench Pro完成率达到了64.3%。一年内增长了一倍多。
这发展速度,确实令人惊叹。
仅仅讨论技术变革尚不足够。看看资金的流向,便可知此事之真实性。
根据今年2月Stratechery的分析,亚马逊、谷歌、Meta三巨头在2026年的合并AI基础设施资本支出将超过7000亿美元。这其中的概念是什么?接近美国国防部年度预算的三分之二。
一个科技行业声称其投入的资金相当于一个超级大国的军费开支,这究竟是试探还是重大的战略押注?
更有意思的是,Ben Thompson还专门对此进行了分析:谷歌的巨额投入最为合理——其云计算业务增长迅猛,且搜索广告与LLM结合的商业模式构成了天然的闭环。亚马逊的巨额投入则令人稍感不安,云服务利润的挤压以及零售业务较低的利润率,使得这笔投资回报的周期尚不明朗。
但无论如何,7000亿美元的投入并非为了让你继续将AI视为一个简单的聊天工具。
斯坦福大学今年的AI Index报告中,另一项数据也给我留下了深刻印象:截至2026年3月,Anthropic的顶级模型在基准测试上仅比中国最好的模型领先2.7%。请注意,并非领先50%,而是2.7%。而在仅仅一年前,2025年2月,DeepSeek-R1曾短暂追平了美国顶尖水平。
换句话说:全球AI能力正在迅速趋同。过去是“美国一骑绝尘”,现在则是“大家都在第一梯队”。这意味着什么?仅仅依靠模型本身来盈利将越来越困难,真正的竞争焦点将转移到谁能将AI能力有效地嵌入到业务工作流中。
我必须强调,这个判断至关重要。
我曾与一位从事跨境电商的朋友交流,他于2024年花费巨资购买了某大厂的AI客服解决方案,但实际使用效果却不如人工客服——因为该AI只能套用话术模板,一旦遇到稍复杂的问题便会崩溃。说白了,拥有先进的模型并不等同于拥有有效的解决方案。
真正能将AI运用得当的团队,并非仅仅在“使用AI”——他们是在“AI替代部分工作后重新设计业务流程”。这两者之间的差异,远比你想象的要大。
许多人频繁提及“Agent”一词,但当你询问他们Agent究竟是什么时,回答大多是:“就是AI能自己干活了呗。”
这并不准确。准确地说:Agent是一个集“大脑+手+神经系统”于一体的完整系统。大脑是大型语言模型,手是它能够调用的工具(如浏览器、代码执行器、数据库、API),神经系统则是编排层——它决定何时思考、何时行动、何时检查结果、何时回退纠正。
2026年的技术关键点,业界普遍认同的是“确定性交付”。这意味着AI Agent不能是一个“可能做对也可能做错”的概率性机器——它在关键操作上必须具备确定性的代码验证能力。
具体如何实现?答案是“LLM大脑 + Code肌肉”。
举个例子:你下达指令“帮我把上个月的销售数据制作成报表并发给李总”。Agent的工作并非直接生成一段文字——它首先会理解你的意图(大脑),然后定位数据库、编写SQL查询、执行统计分析、验证数据准确性(代码),最后调用邮件API进行发送(代码)。每一步都设有检查点。如果数据查询返回空值,它会追溯问题根源,而非随意编造数据。
这就是为什么Claude Code这类工具在开发者社区引起轰动——并非因为其语言能力强大,而是因为它能够实际修改文件、执行命令、读取错误信息、自主修复bug,并从头开始重新运行。你只需喝杯咖啡的功夫,任务便已完成。
我曾为一家上海的家居出口公司构建了一套AI自动跟单Agent系统,其本质是将上述逻辑应用于贸易场景。客户下单(PO)后,AI Agent自动读取邮件附件中的PO单,解析产品明细,比对库存信息,生成生产单,并将信息推送到工厂微信群,同时监控交期节点。在过程中,任何环节出现异常,都会被自动标记并推送给相关负责人。
坦白说,该系统上线后的第一个月出现了五次bug——均由API返回格式不一致导致Agent误判。但与人工出错率相比呢?过去每个月仅PO录入错误就多达十几处。Agent上线三个月后,PO录入错误率降至零。
关键不在于AI是否不出错,而是它出现的错误有迹可循,且能够被快速修正——这正是“确定性交付”的真正含义。
这或许是2026年最为重要,却也最少被认真讨论的话题。
当Agent能够自主执行任务时,人的角色将发生根本性转变。你不再是“操作AI的人”,而是“设定目标的人”。
这听起来可能有些抽象,但实际上已在发生。开发者的工作不再是编写代码,而是撰写Prompt和进行代码审查——有人将其称为“Prompt Architect”和“System Debugger”。设计师的工作不再是逐笔绘制图像,而是定义视觉方向、审核AI产出并做出关键的创意决策。
这不是“AI导致失业”,而是“熟练运用AI的人,其效率将比不使用者高出数个数量级”。但问题在于——当效率差距达到如此悬殊的程度时,“机会不平等”将演变为一个真实的社会焦虑。
Stanford AI Index今年特别指出:公众对AI的态度呈现出更加分裂的趋势。企业对AI的投资正在激增,但普通民众的情绪却在恶化——尤其是在美国,一些地方政府已开始禁止新建数据中心。这两个趋势似乎背道而驰:70%的企业在加速部署AI,但同时仍有42%的企业处于“评估阶段”,尚未真正开始应用。
这种巨大的鸿沟,归根结底并非技术问题,而是认知问题。
去年,一位客户曾对我说过一句话,我至今记忆犹新:“我不是不想用AI,而是不知道从何入手。”他经营一家玩具出口企业,年销售额达两个亿。他并非未接触过AI解决方案,他接触过五六家,每家都宣称“我们的AI能做什么XXX”,但他真正需要的是有人能告诉他:他的业务应该从哪里着手第一步。
这恰恰是我今年在外贸企业中做得最多的事情——并非销售工具,而是帮助他们重新绘制业务流程图。通过将流程可视化,明确哪些环节可以实现Agent化,哪些环节必须由人来做判断。
过去,这些环节之间的衔接依赖于人力协调——通过邮件、电话、微信群、Excel表格。现在,Agent可以直接调用API或解析邮件,人力角色从“传递信息”转变为“监督和决策”。
打个不甚恰当的比方:过去AI就像一把螺丝刀,你需要亲自动手拧。现在AI则像一条完整的生产线,你只需告知它最终产品的形态即可。然而问题是——大多数人的组织架构和工作习惯,仍然停留在“手工作坊”时代。
写到这里,我必须补充几点,以免您认为我过分夸大了AI Agent的作用。
此前,我曾帮助一家服装贸易公司构建AI客服Agent。我们花费了一个月的时间搭建产品知识库并训练对话流程。结果在上线第一周,一位客户询问“这种面料会不会缩水”,Agent从知识库中调取了一段完全错误的面料说明,并直接回复“不会缩水”。客户购买后洗涤,面料缩水了三公分,导致客户要求退货退款。
经过排查,原因非常直接:知识库的源数据本身就是错误的。错误不在模型,而在于数据源头。
这就是Agent时代最大的悖论:你越是让AI自动执行,它对数据的依赖就越深。数据质量不高,AI就会犯错——而且其犯错的范围可能比人类大得多。一个人一天可能犯三处错误。而一个Agent如果配错一个参数,可能就会影响三百个订单。
还有一个潜在的陷阱是“过度Agent化”。并非所有环节都适合AI,判断何时需要人工介入是一种新的管理能力。我的一位客户最初希望将整个外贸流程完全Agent化,从客户搜寻到合同签订、货物发运直至售后服务,实现全栈AI覆盖。我们进行了两天的深入讨论,最终削减了一半的Agent化范围——有些环节,如大客户谈判、样品确认、质量投诉处理等,现阶段AI根本无法胜任。
您猜怎么着?反而是因为这些环节没有被Agent化,人员可以将精力集中在这些高价值的关键节点上,整个流程的效率反而比完全自动化更高。
因此,归根结底,Agent并非在替代人,它是在替代“人不应该做的事情”。
NVIDIA的报告中有一个数据:53%的企业表示AI带来的最大影响是员工生产力提升。但如果您仔细审视那些投资回报率最高的案例,它们都有一个共同点——并非“为员工配备了AI工具”,而是“利用AI Agent重构了整个业务流程”。
西门子与百事可乐的合作案例极具代表性。他们将百事在美国的数家工厂和仓库构建成高精度的3D数字孪生,AI Agents在虚拟环境中模拟产线调整、识别瓶颈,在实际进行改造之前就能发现90%的潜在问题。结果?初期部署的几家工厂吞吐量提升了20%,资本支出降低了10%至15%。
这并非“利用AI辅助决策”这种模糊的说法——这是实实在在的效率提升和成本节约。
回到我目前所做的工作。外贸行业的AI落地,目前正从“能够实现”转变为“必须实现”。
在2026年,如果您仍在手动搜索客户、群发模板邮件、使用Excel管理订单,您所面对的根本不是AI好用与否的问题。而是您的竞争对手可能仅凭一人加三个Agent,就能完成您二十个人的工作量。
我过去常说“要拥抱AI,跟上时代”。现在我不再这么说了。现在我会建议:首先,请将您今天的工作流程用纸笔画出来,然后逐一审视每个环节——“这一步究竟需要人的判断,还是仅仅需要信息的传递?”
您会发现,至少有一半的环节可以实现Agent化。这并非危言耸听。
我认为,未来两年的工作流终局将是“人机混合编排”——人的价值将向两个极端发展:一是最高层的战略判断和创意决策,二是底层的人情世故和关系维护。而中间所有信息处理、流程协调、例行决策等环节,都将被Agent所取代。
这听起来可能令人不适,但说实话,我认为这对大多数普通人来说是件好事。因为您终于不必将宝贵的时间浪费在那些如同“拧螺丝”般机械性的工作上了。
前提是,您必须愿意迈出第一步。
✍️ 本文由麻豆鹿原创,欢迎转发分享。