AI融入数据团队:协作挑战先于效率提升
过去一年,很多团队都在讨论 AI 怎么进入数据工作。
有人用它写 SQL,有人用它解释报表,有人让它生成指标口径说明,有人试着把数据查询、分析摘要、异常归因连成 Agent 工作流。演示时效果经常不错:输入一句自然语言,模型给出查询;上传一份数据,模型生成洞察;接入元数据,模型还能解释字段。
但真正放进团队之后,第一批被放大的,往往不是效率,而是协作问题。
这听起来有点反直觉。AI 不是来提高效率的吗?为什么先看到的是协作问题?
因为数据团队里的很多低效,本来就不是工具慢造成的。
它们来自需求没说清楚,指标口径不统一,字段没人维护,权限边界模糊,代码缺少审查,业务问题和数据问题之间缺少翻译。AI 进入之后,并不会自动消除这些问题。相反,它会更快地触碰它们。
如果只是把 AI 当成一个更聪明的搜索框,问题还不明显。你问它一个 SQL 写法,它给你一段参考;它解释一个错误,它给你几个方向。这种场景下,AI 只是个人效率工具。
但一旦它进入团队流程,性质就变了。
比如业务同事通过自然语言问数,AI 直接生成查询。分析师让 AI 根据指标变化写日报。数据开发让 AI 根据上游表结构生成模型代码。主管让 AI 总结异常原因并推送到群里。
这时 AI 不再只是工具,它变成了协作链条里的一个参与者。
参与者意味着它会接收上下文、做出判断、产生中间结果,并影响其他人的工作。
问题也从“它会不会写 SQL”变成“它基于什么口径写 SQL”“它有没有权限看到这些字段”“它生成的结论由谁负责”“它错了以后谁来发现”。
这些都不是模型能力本身能单独解决的。
人和人协作时,模糊需求有时会被追问。业务说“帮我看一下转化为什么下降”,分析师可能会问:哪个转化?哪段时间?哪个渠道?和什么比?
AI 很容易跳过这个过程。
用户问:“最近用户转化为什么下降?”它可能直接去查数据,生成一个看似完整的分析。内容里有图表、有原因、有建议,看起来很像那么回事。但如果转化定义错了,分析对象错了,比较基准错了,后面的所有漂亮表达都没有意义。
这就是 AI 在数据场景里的一个危险点:它会把不确定的问题包装成确定的答案。
团队原本需求澄清弱,AI 不会自动变强。它只会让“没澄清就开做”的速度更快。
数据团队最常见的旧问题之一,是指标口径分裂。
同一个 GMV,财务一个口径,运营一个口径,增长一个口径;同一个活跃用户,不同看板算法不同;同一个新客,注册、下单、支付各有版本。过去这些问题已经麻烦,但传播速度有限。一个分析师用错口径,影响一份报告;一个看板口径不一致,影响一个会议。
AI 接入之后,传播速度会变快。
如果它能被很多人调用,又能自动生成 SQL、看板解释和文字结论,那么一个错误口径可能会被复制到更多场景里。
所以 AI 问数真正依赖的,不只是大模型,而是指标字典、血缘、元数据、权限、审计和口径责任人。
没有这些底座,AI 看起来越聪明,风险可能越大。
很多数据开发同学已经在用 AI 写 SQL、写 dbt model、写 Airflow DAG、写测试脚本。这个方向当然有价值。
但在团队里,代码生成只是第一步。
更关键的是:生成的代码怎么审查?谁确认业务口径?谁确认性能影响?谁确认不会把上游字段误用?谁确认不会扫全表、不会造成成本飙升、不会破坏已有任务?
如果原本团队就没有清楚的 review 机制,AI 只会让更多代码更快地产生。
更多代码不等于更多产出。有时只是更多需要维护的东西。
这和低代码平台曾经遇到的问题很像。低代码降低了创建门槛,但如果没有治理,最后会出现大量没人维护的流程、表单和报表。AI 也一样。生成门槛下降后,治理的重要性会上升,而不是下降。
还有一个容易被低估的问题,是权限。
过去数据权限通常藏在后台。谁能查哪张表,谁能看哪些字段,谁能导出明细,主要由平台、数仓、BI 系统控制。
AI 进入之后,权限会变得更复杂。
用户可能不是直接查表,而是问 AI:“帮我分析一下高价值客户流失原因。”AI 需要决定要不要访问客户标签、交易记录、客服工单、地区信息、甚至敏感字段。它可能生成中间摘要,也可能把字段含义暴露在回答里。
这时权限不再只是“能不能 select 某张表”,还包括“能不能推断某类信息”“能不能在摘要里出现某些字段”“能不能跨域组合数据”。
如果团队没有提前设计边界,AI 会把权限问题从后台带到前台。
我不悲观。AI 进入数据团队是大方向,而且会带来实实在在的效率提升。
但前提是,我们不能只画工具链路图,还要画责任图。
谁提出问题?谁定义指标?谁授权数据?谁审查 SQL?谁确认结论?谁对发布出去的分析负责?AI 在其中负责生成、检索、解释、提醒,还是可以自动执行?哪些步骤必须有人确认?哪些步骤可以自动化?
这些能力过去就重要。AI 来了以后,只是让它们更重要。
AI 进入数据团队,最终一定会改变工作方式。
一些重复查询会被自动化,一些日报周报会被自动生成,一些异常分析会更快触发,一些代码和测试会由模型辅助完成。
但在那之前,团队会先遇到旧问题的新形态。
需求没说清,AI 会更快地产生错误答案。口径没治理,AI 会更快地复制混乱。权限没设计,AI 会更容易越过边界。审查机制没有建立,AI 会让不可维护的代码变多。
所以,别只问“AI 能不能提高数据团队效率”。
更应该问的是:我们现在的协作方式,配得上一个会自动生成答案的参与者吗?
如果答案还不确定,那第一步不是接更多工具,而是把需求、口径、权限、审查和责任重新梳理一遍。
AI 会放大效率,也会放大混乱。它放大哪一个,取决于团队原来是什么样子。
如果你想系统理解 AI 时代数据团队需要补哪些工程、治理和协作能力,可以继续看数据从业者全栈知识库。我会把 Agent、语义层、指标治理和数据工程实践逐步整理成更完整的学习路径。
关于「拾穗数据」
十来年数据行业里摸爬滚打的一点东西——
都在 ss-data.cc,点下方【阅读原文】去看。
想一起聊?扫码加微信,备注「拾穗」进群:
[1]数据从业者全栈知识0.35em 0.9em;background: #f0f0f0;">想一起聊?