AI正在重塑工作模式

发布时间：2026-04-28 12:01阅读：16

上个月，一位经营独立站八年的朋友分享了他的近况：他一人，辅以三个AI代理，成功管理七个网站，每月营收高达四十万美元。

我询问他是否感到辛苦，他回答说，这比他之前带领二十人团队时轻松得多。

这让我想起Ben Thompson在今年三月发表的《Agents Over Bubbles》一文中的观点——他认为AI并非泡沫，真正的转折点在于大型语言模型（LLM）的第三次进化：从ChatGPT的对话界面，到o1模型的推理内化，再到Claude Code和GPT Codex的自主执行能力。每一次进化都在吞噬更广阔的工作流程。

坦白说，两年前，大多数人仍将AI视为一个高级聊天机器人。你问它问题，它给出答案，偶尔还会出现虚构信息。去年，大家开始认真地利用AI进行代码编写、文案润色和翻译工作。但说实话，那仍属于“人类主导、AI辅助”的传统模式。

今年的变化才真正令人兴奋。

首先来看一组数据。NVIDIA发布的《State of AI》报告，针对3200多家企业进行了调查，结果显示48%的电信公司和47%的零售及消费品公司已开始应用Agentic AI——这并非被动问答的Copilot，而是能够自主规划、调用工具并执行任务的AI Agent。64%的企业正在“积极部署AI”，就连金融行业这个以保守著称的领域也开始引入AI技术。

这预示着什么？

许多人还在纠结“AI是否会取代某个特定岗位”时，真正值得关注的变革已经悄然发生：AI不会取代你个人，但它正在颠覆整个工作方式。

以我自身的经历为例。我曾帮助一位五金出口企业的老板构建AI询盘系统。他原有的流程是：业务员通过谷歌搜索客户信息→批量发送开发信→等待回复→手动录入CRM系统→进行报价→制作合同。这八名业务员，每天至少花费三小时进行纯粹的手动操作。这已不再是辛苦与否的问题，而是如同派遣八个人去拧螺丝，当全世界的螺丝都被机器拧完时，你还在原地重复。

我们对他的整个流程进行了拆解。AI爬虫自动搜寻目标客户，Agent撰写个性化的开发信（而非使用模板，而是根据客户网站内容生成），自动对客户意向进行分级，并将高意向客户直接推送至老板手机。

结果如何？他削减了六名业务员。这并非强制裁员——部分人员转向客户关系维护，有的则投身于产品升级，另外四人是因自然离职而未进行人员补充。营收不仅未降，反而增长了30%。

请勿误解，我并非鼓吹“AI必胜论”。坦白说，其中也存在不少挑战，我稍后会进行探讨。

Ben Thompson将LLM的演进概括为三波关键节点，我认为这个框架非常有洞察力。

第一波，2022年11月，ChatGPT将大语言模型从实验室的玩具变成了公众热议的话题。但当时的模型存在一个致命缺陷：它会“一本正经地胡说八道”。你可以使用它，但必须时刻保持警惕，如同管理一位聪明但不甚可靠的实习生。

第二波，2024年9月，OpenAI的o1模型实现了“推理内化”。简而言之，它在给出答案之前，会在内部进行多轮审视、查错和推敲，而非直接给出答案。这解决了关键的可靠性问题。模型的错误率显著降低，使得你可以更放心地让它处理更多任务。

第三波，才是真正的质变。预计在2025年底至2026年初，Anthropic的Opus 4.5和OpenAI的GPT-5.2-Codex将相继发布。起初，人们并未预料到会有惊天动地的变化——毕竟，基准测试提升一两个百分点，在正常不过了。直到开发者们发现：Claude Code能够独立构建项目。这已非简单的辅助编写小函数，而是你只需提出需求，它便能自行拆解任务、创建文件、编写代码、运行测试、修复错误并完成部署。整个流程一气呵成。

可以说，这标志着从“你手把手指挥AI执行任务”转变为“你设定目标，AI自行寻找达成路径”。

这项转变的核心技术，业界目前称之为“LLM大脑 + Code肌肉”的混合架构。大脑负责理解模糊的需求、进行推理和激发创意，而肌肉则负责精确执行。这并非让AI自由发挥，而是确保每一步操作都经过代码级别的验证。换言之，AI不再仅仅是一个会说话的“脑子”，它拥有了能够行动的“四肢”。

这让我想起上个月看到的一组对比数据：在SWE-Bench基准测试中，2024年初最优秀的AI编程工具仅能完成不到30%的工程任务。到了2026年4月，Claude Opus 4.7的SWE-Bench Pro完成率达到了64.3%。一年内增长了一倍多。

这发展速度，确实令人惊叹。

仅仅讨论技术变革尚不足够。看看资金的流向，便可知此事之真实性。

根据今年2月Stratechery的分析，亚马逊、谷歌、Meta三巨头在2026年的合并AI基础设施资本支出将超过7000亿美元。这其中的概念是什么？接近美国国防部年度预算的三分之二。

一个科技行业声称其投入的资金相当于一个超级大国的军费开支，这究竟是试探还是重大的战略押注？

更有意思的是，Ben Thompson还专门对此进行了分析：谷歌的巨额投入最为合理——其云计算业务增长迅猛，且搜索广告与LLM结合的商业模式构成了天然的闭环。亚马逊的巨额投入则令人稍感不安，云服务利润的挤压以及零售业务较低的利润率，使得这笔投资回报的周期尚不明朗。

但无论如何，7000亿美元的投入并非为了让你继续将AI视为一个简单的聊天工具。

斯坦福大学今年的AI Index报告中，另一项数据也给我留下了深刻印象：截至2026年3月，Anthropic的顶级模型在基准测试上仅比中国最好的模型领先2.7%。请注意，并非领先50%，而是2.7%。而在仅仅一年前，2025年2月，DeepSeek-R1曾短暂追平了美国顶尖水平。

换句话说：全球AI能力正在迅速趋同。过去是“美国一骑绝尘”，现在则是“大家都在第一梯队”。这意味着什么？仅仅依靠模型本身来盈利将越来越困难，真正的竞争焦点将转移到谁能将AI能力有效地嵌入到业务工作流中。

我必须强调，这个判断至关重要。

我曾与一位从事跨境电商的朋友交流，他于2024年花费巨资购买了某大厂的AI客服解决方案，但实际使用效果却不如人工客服——因为该AI只能套用话术模板，一旦遇到稍复杂的问题便会崩溃。说白了，拥有先进的模型并不等同于拥有有效的解决方案。

真正能将AI运用得当的团队，并非仅仅在“使用AI”——他们是在“AI替代部分工作后重新设计业务流程”。这两者之间的差异，远比你想象的要大。

许多人频繁提及“Agent”一词，但当你询问他们Agent究竟是什么时，回答大多是：“就是AI能自己干活了呗。”

这并不准确。准确地说：Agent是一个集“大脑+手+神经系统”于一体的完整系统。大脑是大型语言模型，手是它能够调用的工具（如浏览器、代码执行器、数据库、API），神经系统则是编排层——它决定何时思考、何时行动、何时检查结果、何时回退纠正。

2026年的技术关键点，业界普遍认同的是“确定性交付”。这意味着AI Agent不能是一个“可能做对也可能做错”的概率性机器——它在关键操作上必须具备确定性的代码验证能力。

具体如何实现？答案是“LLM大脑 + Code肌肉”。

举个例子：你下达指令“帮我把上个月的销售数据制作成报表并发给李总”。Agent的工作并非直接生成一段文字——它首先会理解你的意图（大脑），然后定位数据库、编写SQL查询、执行统计分析、验证数据准确性（代码），最后调用邮件API进行发送（代码）。每一步都设有检查点。如果数据查询返回空值，它会追溯问题根源，而非随意编造数据。

这就是为什么Claude Code这类工具在开发者社区引起轰动——并非因为其语言能力强大，而是因为它能够实际修改文件、执行命令、读取错误信息、自主修复bug，并从头开始重新运行。你只需喝杯咖啡的功夫，任务便已完成。

我曾为一家上海的家居出口公司构建了一套AI自动跟单Agent系统，其本质是将上述逻辑应用于贸易场景。客户下单（PO）后，AI Agent自动读取邮件附件中的PO单，解析产品明细，比对库存信息，生成生产单，并将信息推送到工厂微信群，同时监控交期节点。在过程中，任何环节出现异常，都会被自动标记并推送给相关负责人。

坦白说，该系统上线后的第一个月出现了五次bug——均由API返回格式不一致导致Agent误判。但与人工出错率相比呢？过去每个月仅PO录入错误就多达十几处。Agent上线三个月后，PO录入错误率降至零。

关键不在于AI是否不出错，而是它出现的错误有迹可循，且能够被快速修正——这正是“确定性交付”的真正含义。

这或许是2026年最为重要，却也最少被认真讨论的话题。

当Agent能够自主执行任务时，人的角色将发生根本性转变。你不再是“操作AI的人”，而是“设定目标的人”。

这听起来可能有些抽象，但实际上已在发生。开发者的工作不再是编写代码，而是撰写Prompt和进行代码审查——有人将其称为“Prompt Architect”和“System Debugger”。设计师的工作不再是逐笔绘制图像，而是定义视觉方向、审核AI产出并做出关键的创意决策。

这不是“AI导致失业”，而是“熟练运用AI的人，其效率将比不使用者高出数个数量级”。但问题在于——当效率差距达到如此悬殊的程度时，“机会不平等”将演变为一个真实的社会焦虑。

Stanford AI Index今年特别指出：公众对AI的态度呈现出更加分裂的趋势。企业对AI的投资正在激增，但普通民众的情绪却在恶化——尤其是在美国，一些地方政府已开始禁止新建数据中心。这两个趋势似乎背道而驰：70%的企业在加速部署AI，但同时仍有42%的企业处于“评估阶段”，尚未真正开始应用。

这种巨大的鸿沟，归根结底并非技术问题，而是认知问题。

去年，一位客户曾对我说过一句话，我至今记忆犹新：“我不是不想用AI，而是不知道从何入手。”他经营一家玩具出口企业，年销售额达两个亿。他并非未接触过AI解决方案，他接触过五六家，每家都宣称“我们的AI能做什么XXX”，但他真正需要的是有人能告诉他：他的业务应该从哪里着手第一步。

这恰恰是我今年在外贸企业中做得最多的事情——并非销售工具，而是帮助他们重新绘制业务流程图。通过将流程可视化，明确哪些环节可以实现Agent化，哪些环节必须由人来做判断。

过去，这些环节之间的衔接依赖于人力协调——通过邮件、电话、微信群、Excel表格。现在，Agent可以直接调用API或解析邮件，人力角色从“传递信息”转变为“监督和决策”。

打个不甚恰当的比方：过去AI就像一把螺丝刀，你需要亲自动手拧。现在AI则像一条完整的生产线，你只需告知它最终产品的形态即可。然而问题是——大多数人的组织架构和工作习惯，仍然停留在“手工作坊”时代。

写到这里，我必须补充几点，以免您认为我过分夸大了AI Agent的作用。

此前，我曾帮助一家服装贸易公司构建AI客服Agent。我们花费了一个月的时间搭建产品知识库并训练对话流程。结果在上线第一周，一位客户询问“这种面料会不会缩水”，Agent从知识库中调取了一段完全错误的面料说明，并直接回复“不会缩水”。客户购买后洗涤，面料缩水了三公分，导致客户要求退货退款。

经过排查，原因非常直接：知识库的源数据本身就是错误的。错误不在模型，而在于数据源头。

这就是Agent时代最大的悖论：你越是让AI自动执行，它对数据的依赖就越深。数据质量不高，AI就会犯错——而且其犯错的范围可能比人类大得多。一个人一天可能犯三处错误。而一个Agent如果配错一个参数，可能就会影响三百个订单。

还有一个潜在的陷阱是“过度Agent化”。并非所有环节都适合AI，判断何时需要人工介入是一种新的管理能力。我的一位客户最初希望将整个外贸流程完全Agent化，从客户搜寻到合同签订、货物发运直至售后服务，实现全栈AI覆盖。我们进行了两天的深入讨论，最终削减了一半的Agent化范围——有些环节，如大客户谈判、样品确认、质量投诉处理等，现阶段AI根本无法胜任。

您猜怎么着？反而是因为这些环节没有被Agent化，人员可以将精力集中在这些高价值的关键节点上，整个流程的效率反而比完全自动化更高。

因此，归根结底，Agent并非在替代人，它是在替代“人不应该做的事情”。

NVIDIA的报告中有一个数据：53%的企业表示AI带来的最大影响是员工生产力提升。但如果您仔细审视那些投资回报率最高的案例，它们都有一个共同点——并非“为员工配备了AI工具”，而是“利用AI Agent重构了整个业务流程”。

西门子与百事可乐的合作案例极具代表性。他们将百事在美国的数家工厂和仓库构建成高精度的3D数字孪生，AI Agents在虚拟环境中模拟产线调整、识别瓶颈，在实际进行改造之前就能发现90%的潜在问题。结果？初期部署的几家工厂吞吐量提升了20%，资本支出降低了10%至15%。

这并非“利用AI辅助决策”这种模糊的说法——这是实实在在的效率提升和成本节约。

回到我目前所做的工作。外贸行业的AI落地，目前正从“能够实现”转变为“必须实现”。

在2026年，如果您仍在手动搜索客户、群发模板邮件、使用Excel管理订单，您所面对的根本不是AI好用与否的问题。而是您的竞争对手可能仅凭一人加三个Agent，就能完成您二十个人的工作量。

我过去常说“要拥抱AI，跟上时代”。现在我不再这么说了。现在我会建议：首先，请将您今天的工作流程用纸笔画出来，然后逐一审视每个环节——“这一步究竟需要人的判断，还是仅仅需要信息的传递？”

您会发现，至少有一半的环节可以实现Agent化。这并非危言耸听。

我认为，未来两年的工作流终局将是“人机混合编排”——人的价值将向两个极端发展：一是最高层的战略判断和创意决策，二是底层的人情世故和关系维护。而中间所有信息处理、流程协调、例行决策等环节，都将被Agent所取代。

这听起来可能令人不适，但说实话，我认为这对大多数普通人来说是件好事。因为您终于不必将宝贵的时间浪费在那些如同“拧螺丝”般机械性的工作上了。

前提是，您必须愿意迈出第一步。

✍️ 本文由麻豆鹿原创，欢迎转发分享。

← 上一篇：AI动态速递：DeepSeek V4开源，百度GenFlow月活破亿下一篇：AI时代，孩子需要掌握哪些核心能力？ →