AI 成本暴跌，为何你的项目仍失败？关键在于“护城河”错了

发布时间：2026-05-08 23:47阅读：12

在读到 Prukalpa Sanwal 的文章《Intelligence is Abundant, What is the Moat?》时，我起初以为又是一篇空泛的 AI 理论探讨，或许缺乏实际价值。

然而，我的判断失误了。越读下去，我越觉得她的观点直击痛点——特别是“你的 AI 投入可能用错了地方”这一论断。读罢掩卷沉思，文中提到的案例和失败场景，我竟都似曾相识。这篇文章值得我们深入探讨。

Prukalpa 是数据治理平台 Atlan 的联合创始人。她的专业背景在于数据基础设施而非 AI 研究，因此她看待问题的角度与大多数 AI 评论者截然不同。

先来看一组数据。近两年，尖端模型推理的成本已然降低了 300 倍。Gartner 预测，到 2030 年，大型语言模型（LLM）的运行成本还将继续下降 100 倍。Gemini 3.1 Pro 在博士级别的科学推理测试中达到了 94% 的准确率，而 GPT-5.4 Pro 甚至解决了真正数学家都束手无策的难题。我们正面临一个局面：需要不断设计更具挑战性的测试，才能阻止模型分数持续攀升。

但另一边的数据却令人担忧：MIT 的一项研究表明，高达 95% 的生成式 AI 试点项目宣告失败。IDC 的报告指出，88% 的 AI 概念验证从未成功部署到生产环境。

模型日益智能，价格不断走低，可选方案层出不穷——然而，近一半的企业 AI 项目却面临被砍掉的命运。

Prukalpa 用了一个生动的比喻：我们把一台老旧的垃圾处理厂发动机升级成了高性能的赛车涡轮，但汽车本身却依然停在车库里，寸步难行。

Prukalpa 提出的核心分析框架非常简洁，仅有一句话：

请注意，这是一个乘法关系，而非加法。这意味着：如果 Context（上下文信息）为零，那么 Performance（表现）也必然为零，无论你使用的是多么强大的模型。

更糟糕的是反向情况：当高度智能的模型被置于错误的上下文环境中时，反而会产生负面的 Performance。一个越是聪明的模型，一旦运用到错误的语境中，就越可能制造出看似精巧、极具说服力却异常危险的错误。此时，模型的“幻觉”并非减少，而是变得更加难以辨别真伪，让人深信不疑。

在 Intelligence（智能）层面，问题已经得到解决，并且还在快速进步。然而，Context（上下文）这一环节——包括你公司的数据资产、业务的语义定义、内部的运作规则——则需要你自行构建和维护。

这就是为何仅仅更换模型无法解决根本问题。

Prukalpa 列举了几个典型的失败案例，其中有三个给我留下了尤为深刻的印象。

第一个案例：同一个客户，在不同的系统中却拥有多个不同的身份标识。在 CRM 系统中，他被记录为“John Doe”；在账单系统中，他是“J. Doe”；而在工单系统中，他则显示为“User_882”。即使模型再智能，也难以分辨这三个标识指向的是同一个人——仅仅依靠数据推断，是无法将他们关联起来的。

第二个案例：“营收”在财务部门和销售部门的定义截然不同。销售部门计算的是合同签订的金额，而财务部门核算的是实际已入账的现金。模型一旦选择了其中一个定义，便会信心满满地生成报告——这份报告在技术上可能无懈可击，但在业务层面却毫无价值。

第三个案例：合规 Agent 严格遵守了所有明文规定，最终却仍然犯了错误。原因是六个月前，合规部门负责人进行了一次审计，并发布了一份内部备忘录，为某一类实体提供了永久性的豁免。这份关键信息被深埋在一份无人问津的 PDF 文件中，或者只存在于一位资深同事的记忆深处。Agent 既不知道这份豁免的存在，也无法获取到相关信息。

这三种失败情况，无一例外，都不是因为模型不够智能。即使你将模型从 GPT-4 升级到 GPT-5，或者从 Claude 切换到 Gemini，都无法解决这些问题。它们都属于 Context（上下文）层面的挑战，而非 Intelligence（智能）的不足。你可以将引擎换成最昂贵的型号，但如果道路不通，汽车依然无法行驶。

还有一个值得深思的简单计算：如果一个 AI Agent 在一个包含十个步骤的工作流程中，每一步的成功率是 85%，你可能会觉得整体成功率很高。但实际上，整个流程一次性顺利完成的概率仅为 20%。第一个环节出现的错误会像多米诺骨牌一样引发连锁反应，而且越是智能的模型，其产生的“幻觉”越逼真，越难以被察觉。我见过不少项目就是因此在细节处功亏一篑。

Prukalpa 指出，这并非一个全新的观点——而是我们遗忘了认知科学中的一些基本道理。

早在 1987 年，Lucy Suchman 在研究人们如何使用施乐复印机时，发现了一个令工程师们不愿接受的事实：人们在实际操作中会即兴发挥，而非严格遵循预设的计划。复印机上的“智能”辅助系统之所以失败，是因为它只能感知到按钮被按下这个动作；它无法理解用户在实际操作中所面临的具体情境。如今的 Agentic AI（自主代理 AI）与那台老旧的复印机犯了同样的错误——我们给 LLM 一个提示（prompt）或一套“工作流”，期待它能够完美执行。但真实世界中的表现，需要对上下文进行持续的适应和调整，而这是无法通过预先编写脚本来实现的。

1979 年，James Gibson 提出了“可供性”（affordances）的概念：一把椅子对人来说“提供了”坐的可能性，但对鱼来说则不然。一个物体的用途，并非其内在属性，而在于它与所处环境的关系。AI 模型所展现的“智能”，也不是其固有的内在特质——它可能在一个问题上表现出色，而在另一个问题上却胡言乱语。变化的，是上下文环境，而非模型本身。

1980 年，Dreyfus 兄弟提出了技能习得的五个阶段：新手阶段严格遵循规则，而专家则依靠直觉应对各种情境。一个系统越是智能，其智能的表现应该越依赖于上下文，而非越不依赖。我们所追求的通用人工智能（AGI）的路径，实际上可能是在构建一个永远停留在新手阶段的系统。

上世纪 90 年代，Edwin Hutchins 在研究海军导航团队时发现：没有任何一个单独的成员“知道”如何驾驶一艘大型船只。智能是分布在人、工具、地图和流程之间的——它是整个系统的属性，而非个体的属性。这一发现彻底颠覆了当今的 AI 竞赛格局：讨论的焦点已从“模型有多聪明”转变为“系统有多智能”。一个能力相对普通但配置得当的模型，在一个信息完备的系统中，其表现可能远超世界上最强大的模型在杂乱无章的数据中的表现。

还有一个有趣的例子：Yann LeCun 计划在 2026 年离开 Meta，并筹集 10.3 亿美元用于开发他的“世界模型”——这笔资金规模创下了欧洲种子轮融资的历史纪录。如此巨额的投入，仅仅是为了验证一个猜想：脱离现实语境的智能是行不通的。你可以将其理解为，即便是 AI 领域的顶尖人物，现在也开始押注上下文的重要性，而非单纯追求更大、更强的模型。

OpenAI 曾为自己内部构建了一个数据 Agent。

他们最初的设想是直接将模型连接到数据库即可开始工作。然而，他们很快发现，需要构建六层上下文才能使这个 Agent 正常运行：

第一层是关于数据库表的使用情况和结构信息；第二层是人工标注的数据；第三层是从代码中推导出的定义；第四层是从 Slack 消息和文档中提取的机构知识；第五层是从过往的纠错记录中积累的记忆；第六层是每次查询时的实时上下文信息。

整整六层。而且，每一层都需要持续的维护和更新，因为公司在发展，数据在变化，业务逻辑也在不断演进。这并非一个一次性的项目，而是一个需要持续投入的复杂基础设施。

像 OpenAI 这样一家公司，在为自身构建内部 AI 工具时，也无法绕过这一挑战。而对于那些生产自家产品的公司而言，更没有理由可以规避这一点。

Prukalpa 的核心论点是：你无法仅仅依靠 AI 本身来建立起强大的“护城河”。你无法在一个成本以指数级速度下降、竞争对手可以轻易通过 API 调用的资源上，构建起持久的竞争优势。今天你可能比竞争对手早半年使用 GPT-5，但在接下来的半年里，对手追赶上来的成本几乎为零。

然而，Context（上下文）是无法被商品化的。你公司对自身数据的深刻理解、独特的语义定义、以及历史上的“为什么这样做”的决策依据——这些宝贵的资产无法被训练进一个通用的模型中，也没有现成的 API 可以直接调用。你积累的这些知识，是竞争对手难以复制的，即使你愿意出售，他们也无法直接拿来使用。

Intelligence（智能）正在趋于收敛，而 Context（上下文）则在不断复利增长。

这里存在一个飞轮效应。你部署的第十个 AI Agent，将能够继承前九个 Agent 所建立的上下文基础。随着你将越来越多的业务流程实现 AI 化，你积累的上下文信息越多，新增 Agent 的准确率就越高，部署成本也随之降低。那些优先构建好上下文基础设施的公司，将越来越难以被竞争对手超越。

Prukalpa 将她的结论命名为“大翻转”（The Great Inversion）。

几年前，“难题”在于如何制造一台能够进行推理的机器。模型是所有讨论的中心，而为其提供什么基础设施、什么信息则被视为次要的后续工作。

如今，难题已经转变。制造推理引擎——这项曾被认为是人类工程巅峰的挑战——正逐渐被几家顶尖实验室攻克。而如何让推理变得真正有用，使其与实际场景相结合的 Context？这才是新的前沿领域。

而且，这个前沿领域并没有一个放之四海而皆准的解决方案。它必须针对每一家公司、每一个行业领域、以及每一个不断演变的情境，进行单独的、定制化的解决。这并非发布一个通用的模型就能解决的问题。

“帮助公司构建上下文基础设施”——这个说法听起来并不那么“性感”，远不如“利用最新的模型创造出令人惊叹的产品”那样激动人心。但 Prukalpa 的观点是，这才是真正能够拉开差距的地方。

我尚不确定她的判断是否在所有方面都完全准确。

但我深知那三个失败的案例——客户在不同系统中的身份标识混乱、财务与销售对“营收”的定义不一致、合规知识被遗忘在无人问津的 PDF 文件中——我确实在现实中见过太多次了。

更换模型，从来都不是解决问题的根本之道。

◇ ◆ ◇

参考资料

← 上一篇：AI赋能IAA抖音小游戏：从提效工具到增长动力，开启“创意+智能”新时代下一篇：AI赋能普惠支付：科创项目展示（一） →