AI 成本暴跌,为何你的项目仍失败?关键在于“护城河”错了
在读到 Prukalpa Sanwal 的文章《Intelligence is Abundant, What is the Moat?》时,我起初以为又是一篇空泛的 AI 理论探讨,或许缺乏实际价值。
然而,我的判断失误了。越读下去,我越觉得她的观点直击痛点——特别是“你的 AI 投入可能用错了地方”这一论断。读罢掩卷沉思,文中提到的案例和失败场景,我竟都似曾相识。这篇文章值得我们深入探讨。
Prukalpa 是数据治理平台 Atlan 的联合创始人。她的专业背景在于数据基础设施而非 AI 研究,因此她看待问题的角度与大多数 AI 评论者截然不同。
先来看一组数据。近两年,尖端模型推理的成本已然降低了 300 倍。Gartner 预测,到 2030 年,大型语言模型(LLM)的运行成本还将继续下降 100 倍。Gemini 3.1 Pro 在博士级别的科学推理测试中达到了 94% 的准确率,而 GPT-5.4 Pro 甚至解决了真正数学家都束手无策的难题。我们正面临一个局面:需要不断设计更具挑战性的测试,才能阻止模型分数持续攀升。
但另一边的数据却令人担忧:MIT 的一项研究表明,高达 95% 的生成式 AI 试点项目宣告失败。IDC 的报告指出,88% 的 AI 概念验证从未成功部署到生产环境。
模型日益智能,价格不断走低,可选方案层出不穷——然而,近一半的企业 AI 项目却面临被砍掉的命运。
Prukalpa 用了一个生动的比喻:我们把一台老旧的垃圾处理厂发动机升级成了高性能的赛车涡轮,但汽车本身却依然停在车库里,寸步难行。
Prukalpa 提出的核心分析框架非常简洁,仅有一句话:
请注意,这是一个乘法关系,而非加法。这意味着:如果 Context(上下文信息)为零,那么 Performance(表现)也必然为零,无论你使用的是多么强大的模型。
更糟糕的是反向情况:当高度智能的模型被置于错误的上下文环境中时,反而会产生负面的 Performance。一个越是聪明的模型,一旦运用到错误的语境中,就越可能制造出看似精巧、极具说服力却异常危险的错误。此时,模型的“幻觉”并非减少,而是变得更加难以辨别真伪,让人深信不疑。
在 Intelligence(智能)层面,问题已经得到解决,并且还在快速进步。然而,Context(上下文)这一环节——包括你公司的数据资产、业务的语义定义、内部的运作规则——则需要你自行构建和维护。
这就是为何仅仅更换模型无法解决根本问题。
Prukalpa 列举了几个典型的失败案例,其中有三个给我留下了尤为深刻的印象。
第一个案例:同一个客户,在不同的系统中却拥有多个不同的身份标识。在 CRM 系统中,他被记录为“John Doe”;在账单系统中,他是“J. Doe”;而在工单系统中,他则显示为“User_882”。即使模型再智能,也难以分辨这三个标识指向的是同一个人——仅仅依靠数据推断,是无法将他们关联起来的。
第二个案例:“营收”在财务部门和销售部门的定义截然不同。销售部门计算的是合同签订的金额,而财务部门核算的是实际已入账的现金。模型一旦选择了其中一个定义,便会信心满满地生成报告——这份报告在技术上可能无懈可击,但在业务层面却毫无价值。
第三个案例:合规 Agent 严格遵守了所有明文规定,最终却仍然犯了错误。原因是六个月前,合规部门负责人进行了一次审计,并发布了一份内部备忘录,为某一类实体提供了永久性的豁免。这份关键信息被深埋在一份无人问津的 PDF 文件中,或者只存在于一位资深同事的记忆深处。Agent 既不知道这份豁免的存在,也无法获取到相关信息。
这三种失败情况,无一例外,都不是因为模型不够智能。即使你将模型从 GPT-4 升级到 GPT-5,或者从 Claude 切换到 Gemini,都无法解决这些问题。它们都属于 Context(上下文)层面的挑战,而非 Intelligence(智能)的不足。你可以将引擎换成最昂贵的型号,但如果道路不通,汽车依然无法行驶。
还有一个值得深思的简单计算:如果一个 AI Agent 在一个包含十个步骤的工作流程中,每一步的成功率是 85%,你可能会觉得整体成功率很高。但实际上,整个流程一次性顺利完成的概率仅为 20%。第一个环节出现的错误会像多米诺骨牌一样引发连锁反应,而且越是智能的模型,其产生的“幻觉”越逼真,越难以被察觉。我见过不少项目就是因此在细节处功亏一篑。
Prukalpa 指出,这并非一个全新的观点——而是我们遗忘了认知科学中的一些基本道理。
早在 1987 年,Lucy Suchman 在研究人们如何使用施乐复印机时,发现了一个令工程师们不愿接受的事实:人们在实际操作中会即兴发挥,而非严格遵循预设的计划。复印机上的“智能”辅助系统之所以失败,是因为它只能感知到按钮被按下这个动作;它无法理解用户在实际操作中所面临的具体情境。如今的 Agentic AI(自主代理 AI)与那台老旧的复印机犯了同样的错误——我们给 LLM 一个提示(prompt)或一套“工作流”,期待它能够完美执行。但真实世界中的表现,需要对上下文进行持续的适应和调整,而这是无法通过预先编写脚本来实现的。
1979 年,James Gibson 提出了“可供性”(affordances)的概念:一把椅子对人来说“提供了”坐的可能性,但对鱼来说则不然。一个物体的用途,并非其内在属性,而在于它与所处环境的关系。AI 模型所展现的“智能”,也不是其固有的内在特质——它可能在一个问题上表现出色,而在另一个问题上却胡言乱语。变化的,是上下文环境,而非模型本身。
1980 年,Dreyfus 兄弟提出了技能习得的五个阶段:新手阶段严格遵循规则,而专家则依靠直觉应对各种情境。一个系统越是智能,其智能的表现应该越依赖于上下文,而非越不依赖。我们所追求的通用人工智能(AGI)的路径,实际上可能是在构建一个永远停留在新手阶段的系统。
上世纪 90 年代,Edwin Hutchins 在研究海军导航团队时发现:没有任何一个单独的成员“知道”如何驾驶一艘大型船只。智能是分布在人、工具、地图和流程之间的——它是整个系统的属性,而非个体的属性。这一发现彻底颠覆了当今的 AI 竞赛格局:讨论的焦点已从“模型有多聪明”转变为“系统有多智能”。一个能力相对普通但配置得当的模型,在一个信息完备的系统中,其表现可能远超世界上最强大的模型在杂乱无章的数据中的表现。
还有一个有趣的例子:Yann LeCun 计划在 2026 年离开 Meta,并筹集 10.3 亿美元用于开发他的“世界模型”——这笔资金规模创下了欧洲种子轮融资的历史纪录。如此巨额的投入,仅仅是为了验证一个猜想:脱离现实语境的智能是行不通的。你可以将其理解为,即便是 AI 领域的顶尖人物,现在也开始押注上下文的重要性,而非单纯追求更大、更强的模型。
OpenAI 曾为自己内部构建了一个数据 Agent。
他们最初的设想是直接将模型连接到数据库即可开始工作。然而,他们很快发现,需要构建六层上下文才能使这个 Agent 正常运行:
第一层是关于数据库表的使用情况和结构信息;第二层是人工标注的数据;第三层是从代码中推导出的定义;第四层是从 Slack 消息和文档中提取的机构知识;第五层是从过往的纠错记录中积累的记忆;第六层是每次查询时的实时上下文信息。
整整六层。而且,每一层都需要持续的维护和更新,因为公司在发展,数据在变化,业务逻辑也在不断演进。这并非一个一次性的项目,而是一个需要持续投入的复杂基础设施。
像 OpenAI 这样一家公司,在为自身构建内部 AI 工具时,也无法绕过这一挑战。而对于那些生产自家产品的公司而言,更没有理由可以规避这一点。
Prukalpa 的核心论点是:你无法仅仅依靠 AI 本身来建立起强大的“护城河”。你无法在一个成本以指数级速度下降、竞争对手可以轻易通过 API 调用的资源上,构建起持久的竞争优势。今天你可能比竞争对手早半年使用 GPT-5,但在接下来的半年里,对手追赶上来的成本几乎为零。
然而,Context(上下文)是无法被商品化的。你公司对自身数据的深刻理解、独特的语义定义、以及历史上的“为什么这样做”的决策依据——这些宝贵的资产无法被训练进一个通用的模型中,也没有现成的 API 可以直接调用。你积累的这些知识,是竞争对手难以复制的,即使你愿意出售,他们也无法直接拿来使用。
Intelligence(智能)正在趋于收敛,而 Context(上下文)则在不断复利增长。
这里存在一个飞轮效应。你部署的第十个 AI Agent,将能够继承前九个 Agent 所建立的上下文基础。随着你将越来越多的业务流程实现 AI 化,你积累的上下文信息越多,新增 Agent 的准确率就越高,部署成本也随之降低。那些优先构建好上下文基础设施的公司,将越来越难以被竞争对手超越。
Prukalpa 将她的结论命名为“大翻转”(The Great Inversion)。
几年前,“难题”在于如何制造一台能够进行推理的机器。模型是所有讨论的中心,而为其提供什么基础设施、什么信息则被视为次要的后续工作。
如今,难题已经转变。制造推理引擎——这项曾被认为是人类工程巅峰的挑战——正逐渐被几家顶尖实验室攻克。而如何让推理变得真正有用,使其与实际场景相结合的 Context?这才是新的前沿领域。
而且,这个前沿领域并没有一个放之四海而皆准的解决方案。它必须针对每一家公司、每一个行业领域、以及每一个不断演变的情境,进行单独的、定制化的解决。这并非发布一个通用的模型就能解决的问题。
“帮助公司构建上下文基础设施”——这个说法听起来并不那么“性感”,远不如“利用最新的模型创造出令人惊叹的产品”那样激动人心。但 Prukalpa 的观点是,这才是真正能够拉开差距的地方。
我尚不确定她的判断是否在所有方面都完全准确。
但我深知那三个失败的案例——客户在不同系统中的身份标识混乱、财务与销售对“营收”的定义不一致、合规知识被遗忘在无人问津的 PDF 文件中——我确实在现实中见过太多次了。
更换模型,从来都不是解决问题的根本之道。
◇ ◆ ◇
参考资料