标签

为何人工智能在企业中难以真正扎根?

发布时间:2026-06-30 20:00阅读:2

去年,一家中型企业找我聊 AI 落地。他们 demo 跑了三个月,效果很好——客服问答准确率 92%,合同审核从 4 小时降到 15 分钟。CTO 拍板:三个月内全业务线推广。

一年后我再问,客服 AI 还跑着,但准确率掉到了 74%。合同审核停用了——法务部不信任模型输出,每次都重新人工检查,省下的时间又还回去了。剩下五个试点项目,三个卡在”待评估”阶段,两个被预算砍了。

这不是一个失败案例。这是 AI 在企业落地的常态。

为什么 demo 那么漂亮,落地却一地鸡毛?答案不在模型能力上——今天的大模型足够强。答案在架构上。我们一直在用建造确定性系统的方法论,去建造一个本质概率性的系统。这就像用造桥的规范去造船:不是桥不好,是介质错了。

传统软件有一个隐含公理:相同输入 → 相同输出。你写单元测试,assert result == expected,一次通过永远通过。故障是二值的——要么对,要么错。重试是幂等的——再跑一次结果一样。

大模型把这条公理砸了。

同一个 prompt 输入两次,模型可以在 token 空间里采样出不同的输出。同一个问题,一次回答得漂亮,一次胡编乱造。同一个操作,一次传入正确的参数,一次幻觉出根本不存在的对象。这不是 bug。这是模型的工作原理——它本质上是概率性系统,不是确定性系统。

这意味着什么?你把模型部署到生产环境的那一刻,你部署的不是一段确定性的代码。你部署的是一个统计过程。你的系统不是在执行预定义的逻辑——它在采样一个概率分布。你的 SLA 不能写”系统正确率 100%“,只能写”在 95% 置信水平下,系统正确率 ≥ 90%“。

大多数企业的运维体系、监控体系、故障响应流程,没有为这行 SLA 做好准备。

当模型出错时,最自然的反应是:加验证。加 guardrail。加一层检查。

这就是绝大多数企业 AI 架构的现状:在模型外面包一层又一层的 if-else,试图把概率性”兜住”。看起来合理,直到你遇到一个根本性的问题。

你只能确定性验证格式,不能确定性验证内容。

什么意思?写一段确定性代码,你可以: - 检查模型输出的 JSON 格式对不对 - 检查引用的用户 ID 是否真实存在 - 检查返回的数值是否在合法范围内

但你写不出一段确定性代码来检查”模型说 Q3 营收增长 12%“——因为它可能真的增长了 12%,也可能模型把 Q2 的数据记成了 Q3,也可能这 12% 根本没发生过。要核对这个事实,你需要把自然语言声明匹配到数据库的对应字段——这个匹配本身就是 NLP 问题,本身就需要一个概率性系统来做。

于是你就陷入了一个递归:模型输出需要验证 → 验证器也是一个概率性系统 → 验证器的输出也需要验证 → 需要另一个验证器 → 无限循环。

这就是 AI 架构的根本困境:格式错误可以靠确定性代码穷尽捕获,但内容错误——那些真正危险的、导致业务损失的幻觉——本质上是概率性操作才能发现的。你用一个概率性系统去检查另一个概率性系统,不等于消除了概率性,只是把概率性藏到了另一个盒子里。

不试图消除不确定性,而是为不确定性设计承载结构。架构的任务不是让模型不犯错(做不到),而是确保模型犯错时:错误能被检测到,错误被限制在安全边界内,错误可以追溯根因,错误的损害可逆。

这是企业 AI 落地中最少被讨论、但杀伤力最大的问题。

我们来算一笔账。假设一次模型调用成本是 1 个单位。为了把这次调用的输出变得”可信任”,你需要在上面叠加:

总乘子:9 到 36 倍。

你花 1 块钱让模型做了推理,需要再花 9 到 36 块钱确保这次推理”值得信任”。而且这笔保障成本不会随着模型变便宜而等比例下降——证据锚定和置信度评估是独立的计算过程,审计日志的存储增长是线性累积的,人工复核的人力成本只涨不跌。

如果模型调用是高频低价值的(比如每天 10 万次客服问答),这个乘子会让总成本迅速超过人力替代的收益。你试图用 AI 替代人工,结果在保障层上造出了对人工的更大依赖。

这不是理论推演。这是已经在发生的现实。

“智能架构可以实现从’人操作系统’到’人治理系统’的转变”——这句话几乎出现在每一份 AI 战略 PPT 里。

但当你真正落地,你会发现一个反直觉的事实:AI 保障层创造了一个比传统系统更大的人类依赖。

来看一条典型的保障链路:

模型输出 → 置信度评估 → 高置信度走自动执行 /中置信度走人工复核/ 低置信度走阻断升级

假设系统日处理 10 万次模型调用,置信度分布为高 70%、中 25%、低 5%。那么:

这 125 人的复核团队不是传统客服。他们需要理解模型输出、评估置信度依据、判断证据锚定结果、做出”通过/驳回”的决策并记录理由。这需要培训、招聘、管理、流失替补——整套人力体系的成本。

更糟糕的是:这个数字不固定。如果模型供应商静默升级了模型版本,准确率从 92% 掉到 87%,中置信度的比例可能从 25% 跳到 40%。你的人力需求一夜之间翻倍——因为供应商做了一个你不知道的操作。

“人治理系统”的承诺,在这里变成了”人卡在模型和业务之间当缓冲垫”。

上面说的 9–36 倍乘子、125 人复核团队——都是建立在”输出可以被验证”的前提上的。

但很多最有价值的 AI 能力,恰恰是不可验证的。

文本摘要好不好?没有客观标准。战略建议合不合理?因人而异。创意文案优不优秀?主观判断。代码审查意见对不对?需要专家评估。

这些场景的模型输出质量是本质主观的。你在这个上面套保障层,验证器既没有 schema 可校验(没有固定格式),也没有 ground truth 可核对(“好的摘要”是什么?)。结果只有两个:

企业 AI 落地最诚实的做法,是在一开始就划清边界:

你不需要为每一类 AI 使用都建保障系统。你只需要诚实地承认:有些东西 AI 可以安全地做,有些东西 AI 只能提供参考,有些东西 AI 不能碰。这种分类本身,就是架构设计的第一课。

传统企业系统的依赖管理有一个基础假设:你用的组件的版本,你说了算。数据库升级、中间件升级、框架升级——你评估、你测试、你排期、你上线。

模型 API 完全不是这么回事。

供应商可以在任意时间更新模型版本、调整能力边界、改变定价、甚至下线模型。而且他们通常不会大张旗鼓地通知你——今天的 GPT-4 和三个月前的 GPT-4,行为可能已经不同了。

这意味着:你的 Target Architecture 的核心组件,在一个外部力量下持续变化。你给下游系统承诺了确定性——“我们的 API 返回格式不变、行为不变”——但这个承诺建立在模型行为稳定的前提上。供应商一个静默升级,你的承诺就危了。

这不是假设推演。这是很多 AI 产品团队按月经历的噩梦:某天早上运维群炸了,因为某个模型升级导致输出格式微调,下游解析全挂。

解决这个问题,不是在 Phase D 的技术选型里补一个”版本锁定”功能。是在架构概念层就承认:当模型内核漂移时,确定性外壳必须诚实降级,而不是假装一切正常。检测到漂移 → 对外显式标注quality: degraded→ 收紧自动化阈值 → 同时重新评估模型版本 → 通过后恢复。宁可让消费方看到”当前系统在降级运行”的真话,也不能让他们在不知情的情况下消费质量已下降的输出。

说到这里,好像我在论证 AI 在企业走不通。不是的。AI 在企业一定能走通——但不会以现在大多数人所设想的方式走通。

真正的企业 AI 架构不是”模型 + 几层 if-else”。它是一个完整的、为概率性介质设计的承载结构。它包含:

这不是”工程优化”。这是范式转换。我们正在从”以应用程序为内核”转向”以模型和智能体为内核”的系统架构——而这意味着我们对确定性、可验证性、可审计性的所有假设,都需要在概率性的介质上重新建立。

这条路能走通。但不是通过假装模型不会犯错——是通过在模型犯错时,你的架构已经知道该怎么办。

热血时代,冷眼看 AI。不炒概念,只谈真问题。