企业AI项目屡屡受挫,根源在于数据质量困境
企业在人工智能领域投入重金却收获寥寥,症结在于数据中充斥着大量无用、过时和零散的信息。这家初创公司Clario通过自动识别和清除这些低价值数据,致力于提升企业数据品质,进而让人工智能项目真正创造商业回报。
原文:Your AI isn't broken. Your data is.
作者:Darryl K. Taft
企业正斥资数十亿美元开发人工智能系统,但实际产出却难以令人满意。一家初创企业表示,他们已找到问题根源,并打造了首个致力于解决此难题的平台。
Clario于周三正式结束隐身模式,获得600万美元种子轮融资,旨在解决联合创始人兼首席执行官Yousuf Khan所提出的“数据ROT”困境:即冗余、过时和琐碎的文件,这些文件不仅推高了存储成本,更从根本上“污染”了人工智能项目。
“ChatGPT发布四年后的今天,企业在那些未能产生显著价值的项目上已投入了数十亿美元,”Khan在声明中表示。“‘垃圾进,垃圾出’不再是一句老生常谈,而是一个代价极其高昂的错误。”
行业估算表明,超过三分之一的企业存储数据属于无用类别。Gartner预测,到今年年底,60%的人工智能项目将因数据质量低劣而被搁置。Khan指出,Clario早期客户调研显示这一比例更高。在与设计合作伙伴的测试中,团队发现无用数据率高达60%。
Khan曾五次担任首席信息官,曾在Pure Storage和Moveworks任职,后成为Ridge Ventures合伙人。他表示,在每个职位上都遇到了同样的障碍。“我曾多次尝试用主流文件系统解决这个问题,但都未能成功,”他告诉The New Stack。随着ChatGPT发布后生成式人工智能内容大量涌入企业存储系统,这个问题愈发严峻。
联合创始人兼首席技术官Madhu Vohra拥有丰富的系统构建经验。她的职业生涯致力于打造数据存储系统——曾在NetApp设计集群SAN,在Nutanix扩展工程团队,并主导了Oracle在OCI中的块存储和对象存储业务。
“我打造了主要系统,让人们能够积累数据,”她告诉The New Stack。“所以,我现在是在弥补过去的不足。”
Clario直接对接企业文件和内容系统,包括Google Drive、SharePoint、OneDrive、Box和Confluence,通过扫描元数据识别无用文件,无需打开文件本身。Vohra表示,当前分类基于启发式方法,利用文件校验和、命名模式、访问时间戳和格式支持状态进行分析。她透露,人工智能和基于嵌入的检测已在开发路线图中。
当Clario标记出文件后,会通过Slack或Teams触发工作流程,通知内容创建者或所有者,询问是保留、归档还是删除。系统从这些决策中学习,逐步构建更加自主的清理引擎。Clario仅在客户对标记文件采取行动时收取费用,这是一种基于成果的收费模式,使公司激励机制与实际数据减少量保持一致。
ROT分为三类:冗余文件(重复和近似重复文件)、过时文件(无法打开的旧格式、多年未访问的文档、已离职员工的内容)和琐碎文件(隐藏文件、杂项)。Vohra指出,早期客户分析发现了TB级的无用数据,包括已停产产品线的知识库文章,以及前员工下载的完整电影。
为避免误报,Clario的模型针对精确度进行了优化,旨在仅标记其确定的无用文件。
“任何我们认为难以辨认的内容,都希望提出来,”Khan说。他补充道,目标是先处理“容易摘取的果实”,在进入更模糊的领域之前建立信任。
时机的重要性不仅关乎存储账单。当企业构建内部代理和基于RAG的系统时,底层数据质量直接决定了这些系统是否有效。Vohra直言不讳地指出:“我的AI产生幻觉,是因为你给它喂了1500万个文件吗?”
Khan表示,他从Token经济学的角度审视这个问题:构建在低质量知识库上的内部代理,迫使LLM筛选过时的政策、停产的产品文档和过时的支持文章,从而在杂讯上浪费计算资源。
“你实际上是在处理垃圾Token,”他指出。
一位拥有550万个文件的早期客户发现,超过20%属于“数据ROT”,且这些数据主要追溯到四名离职员工。
Khan承认该领域竞争者寥寥。他说,备份供应商和归档公司仅触及数据清理的表面,但没有一家构建了从分类到员工通知,再到采取行动和学习的端到端工作流程。“如果他们能做到,我早就采用了,”他说。“我还没见过一家公司能做到这一点。”
Vohra指出,压缩和存储效率工具解决的是存储成本问题,而非存储数量问题。“问题的核心仍然是,你拥有的1500万个文件,依然是那1500万个问题。”
“企业数据危机并非新鲜事,但今天忽视它的代价变得让人无法接受,”Preface Ventures合伙人Saad Siddiqui在声明中说。“我们支持Clario,因为他们是唯一一家致力于在基础层面让企业实现人工智能就绪的公司。”
Clario在早期分析和部署中拥有大约十几家客户。公司成立约六个月,计划从文件和内容系统扩展到图像存储库、视频存储以及ServiceNow和Salesforce Service Cloud等平台中的知识库。
Khan用简洁的话语概括了产品愿景:“我们的目标是确保数据卫生在企业中成为一个持续性的过程。”