标签

为何半数AI项目折戟POC阶段?深挖数据基座背后的"豆腐渣工程"——质量堪忧的数据如何拖累AI价值实现

发布时间:2026-04-20 15:27来源:微信阅读:5

导语:2025年底的一项调查揭示,超过半数的生成式AI项目在完成令人眼前一亮的概念验证后,便悄然搁浅。为何在管理层面前演示得天花乱坠的AI,一到真实生产环境就原形毕露?原因很直接,却常被忽视:你的数据根基,根本撑不起AI的宏图。

在AI浪潮中,企业常被各类大模型的炫酷能力所吸引,却往往低估了"喂养"这些模型所需的数据准备工作。今日,我们深入剖析数据质量为何成为AI大规模落地的最大障碍,以及CIO们应如何突围。

在概念验证阶段,技术团队通常会精挑细选最整洁、结构最完善的数据集,并在严格受控的环境下运行模型。在这间"温室"里,AI的表现自然惊艳。

然而当项目准备推广至全公司时,现实的残酷考验随之而来:

结构化数据的幻象:存储于ERP或CRM中的表格数据,实则并非想象中那样规范,处处是空值、乱码和历史积压的错误分类。

非结构化数据的泥潭:堆积如山的扫描件、PDF文档和杂乱的表单,在被AI高效匹配和应用之前,需要极为繁琐的清洗与转换。

元数据的空白:众多组织缺乏标准化的高质量元数据。AI智能体或许有权限访问数据,但若不清楚某字段在业务语境中的具体含义,它仍是"睁眼瞎"。

这便造成了一道致命的理解鸿沟。AI无法领悟你的业务逻辑,输出的结果必然不可靠、不完整甚至极具误导性。

既然数据是AI的命脉,技术领导者该如何破局,跨越从POC到生产环境的"死亡之谷"?

1. 转变思维:数据是核心产品,而非附属物

切莫再将数据仅当作业务系统运转后遗留的"残渣"。在AI时代,数据必须被视为企业的一级资产和核心产出。CIO需像管理任何主营产品般,对数据的生命周期进行精心规划。

2. 摒弃"人类速率",打造"机器友好"的数据通道

往昔的数据治理框架,大多是针对"人类看报表"而设计。但AI处理数据的速度和数量是指数级的。

未来的数据交付必须从"以人为中心"转向"机器可操作":数据需被精准的元数据包裹,通过现代协议(如MCP服务器)向外暴露,并受到严格的分级脱敏和访问控制。

3. 用例驱动:勿求一次性净化所有数据

面对海量历史数据,企图一次性全部清洗干净是不切实际的。正确的策略是:选取5到10个高价值的核心用例,倒推这些用例需要何种数据,然后集中精力准备这些特定的数据管道。

4. 用AI战胜AI:以魔法克制魔法

既然人工清理数据太慢,何不借助AI之力?

企业可运用受到严格提示约束的小型语言模型,专门用于清理、标准化特定领域的数据,甚至起草组织内部的数据定义。当然,这必须建立在严格的"人在回路"机制上,由人类专家把控最后关口。

结语:

在生成式AI的竞赛中,模型能力只是浮出水面的冰山一角,潜于水下庞大且坚固的数据基石,才是决定项目成败的关键。为AI做好数据准备,绝非"一蹴而就"的任务,而是随业务演进持续迭代的持久战。唯有夯实数据根基,AI方能从实验室的"玩物",真正蜕变为驱动企业增长的引擎。

全文:质量堪忧的数据如何拖累AI价值实现

统计揭示,截至去年年底,超半数的生成式AI项目在POC之后被搁置,其中很大程度源于数据准备不足。那么,IT领导者该如何更好地实现规模化落地?

图源:Rob Schultz / Shutterstock

AI的前景是光明的,但低质量的数据破坏了从中获取任何价值的每一次尝试。若无正确的输入,AI将产生不可靠、不完整甚至误导性的结果。

Iterate.ai的CTO Brian Sathianathan表示,对普通企业而言,数据以多种形态分布于多个系统中,整合结构化与非结构化数据远比大多数AI试点项目所预想的更为困难。"来自运营系统的结构化数据鲜少如团队所假设的那样整洁,而扫描文档、表格之类的非结构化数据,在能够被有效匹配和使用之前,需要不同的准备流程,"他补充道,这或许解释了为何企业在试图跨越概念验证阶段时会遭遇阻碍。

Investec的集团技术战略主管Rhian Letts指出,拥有令人印象深刻POC的组织往往能取得成功,因为它们依赖精挑细选的数据集、人工解决方案和严格受控的环境。真正的挑战在于将试点转化为可靠的生产级实施。她补充道,扩展需要高可用数据管道、一致的定义、运营支持以及与真实工作流程的集成。这也提升了对数据治理的要求。