AI交付的核心在于客户价值实现

发布时间：2026-07-03 03:42阅读：2

最近看到一个关于Pendo和LangSmith的合作案例，初看像是一篇普通的工具用户故事，但越琢磨越觉得，它揭示了一个更深层次的问题。

这个问题其实很直接：

人工智能落地是否成功，不能仅看AI是否完成了任务，而应关注客户价值是否真正得到了传递。

在编程代理领域，这个问题尤为突出。

代码被修改、合并请求被接受、测试通过、代理的输出看起来合理，这些当然很重要。但它们更像是过程中的证据。

真正的完成点，还是要回到实际使用场景中：

用户的问题是否减少了？体验是否更流畅了？业务指标是否朝着正确方向变化？这次AI的介入，最终是否把客户价值传递出去了？

Pendo和LangSmith的这个案例之所以值得关注，就是因为它把这条链条打通了。

过去的软件流程非常缓慢。

产品经理查看数据、采访用户、编写产品需求文档，开发人员修复问题，质量保证或用户验收测试验证，上线后继续观察。这里面有很多低效环节，也有不少组织摩擦。

但它至少保留了一个重要判断：

产品是否真正有用，需要回到用户行为中去确认。

AI编程工具出现后，最先加速的是“写代码、开合并请求、发布版本”这一环节。一个人可以同时处理多个任务，代理可以帮你修改代码、补充测试、生成补丁，很多原来卡在开发吞吐量上的事情，确实变快了。

问题也在这里出现。

当代码交付速度提升后，价值验证没有同步加快，系统就会出现新的不平衡。

软件发布得更快了。用户验收测试和产品验证变少了。用户真实问题更容易被忽略。补丁成功率和用户采用率/留存率之间开始出现差距。

这时，如果我们还只关注“代理能不能写代码”，就会错过真正的瓶颈。

新的瓶颈是：

价值验证的带宽。

也就是说，系统能否及时看到真实用户行为，能否从行为中识别问题，能否把问题映射到代码或系统原因，能否验证修复后用户体验是否真的改善。

AI编程提升的是代码吞吐量。

Pendo这个案例想补充的，是价值验证吞吐量。

这句话我觉得很关键。

Pendo的Novus是一个产品代理。

它从真实产品中的用户行为开始。

用户在页面中卡住了，漏斗转化率下降了，出现了愤怒点击，某个流程反复失败。Novus通过产品行为数据和会话回放看到这些问题，再用AI去解释背后的产品含义，进一步关联到代码上下文，最后生成修复建议。

这条链大致是这样的：

LangSmith在这里的角色，已经超出了普通日志系统。

它让团队能看到代理在这条链中到底做了什么：读取了什么输入，调用了什么工具，哪个子代理参与了判断，令牌和成本花在哪里，多轮对话是否走向解决，用户对输出的反馈如何。

更重要的是，追踪标签把用户名、会话ID、组织这些业务对象连接了起来。

这件事很小，但很关键。

只记录工具调用的追踪，主要帮助调试。能够连接用户、组织、会话、成本、反馈和代码变更的追踪，开始进入治理层面。

也就是说，团队不仅知道代理这次哪里错了，还能知道：

哪个客户在使用？哪个流程最昂贵？哪类问题最常出现？哪些线上失败应该进入下一轮评估？哪些用例应该沉淀成更稳定的提示词、工作流或产品能力？

这一步往前走，团队面对的是更高一层的问题：经营AI系统。

这篇案例中有一个细节，我觉得比工具功能本身更重要。

Pendo团队通过追踪发现，代理经常只使用产品分析数据，或者只使用代码上下文，很少把两者真正结合起来。

这就是典型的AI落地问题。

从输出看，代理可能也给出了一个答案。从流程看，它也调用了工具。从结果看，甚至可能生成了一个补丁。

但价值链中的关键整合动作没有发生。

产品问题要被正确修复，代理必须同时理解两类证据：

只看产品数据，容易停在现象层。只看代码上下文，容易修到局部实现。两者结合起来，才有机会把“用户体验问题”变成“可执行的工程修复”。

这也是追踪真正的价值：帮助团队看见AI系统有没有完成价值链中的关键动作。

如果借用前一天那套代理七层框架，不需要把七层完整铺开，这个案例最值得抓住的是五个落点。

第一是意图层。

成功标准从“生成代码”上移到“真实用户体验是否改善”。这一步很重要，因为成功标准决定了整个系统会优化什么。

第二是路由层。

代理要把产品行为、会话回放、代码上下文、用户反馈这些不同类型的上下文路由到同一个判断过程里。Pendo发现代理很少同时使用产品数据和代码上下文，本质上就是路由没有真正打通。

第三是状态层。

多轮对话、用户会话、会话ID、组织、追踪树，都在回答一个问题：这件事能不能被持续追踪。没有状态，问题就会散在日志、聊天和工单里。

第四是合成层。

系统要把行为异常、代码原因、修复建议和用户反馈合成一个可判断的结果。单轮输出看起来合理还不够，关键是这条问题轨迹有没有走向解决。

第五是治理层。

反馈评分、追踪标签、成本归因、线上坏案例回流到评估，这些决定了系统能不能越用越稳，越跑越知道自己该改哪里。

所以，这个案例没有必要完整展开七层。它非常清楚地打中了代理工程里最容易被忽略的一段：

从用户价值反馈反向牵引代理的任务定义、上下文路由、状态追踪、结果验收和治理反馈。

这里还有一个值得继续想的问题。

如果产品服务的是人，反馈速度天然有上限。

人需要真实使用产品，问题才会暴露。用户体验中有情境、情绪、任务目标和耐心成本。很多用户不会主动反馈，只会默默离开。

AI可以帮我们更快看会话回放，更快聚类问题，更快提出修复假设。但人的价值判断仍然是最终锚点。

如果系统服务的是另一个代理，反馈速度会变得很不一样。

API调用失败，可以马上返回错误码和追踪。编程代理修改后，可以马上跑测试、代码检查、基准测试。研究代理输出后，可以让评估代理检查引用、覆盖率和一致性。工作流代理完成任务后，下游系统可以立即判断是否进入下一步。

面向代理的系统的反馈闭环可以更快、更密、更自动化。

但这里也要小心。

机器反馈越快，越需要清楚的价值锚点。测试通过、评估器给高分、下游代理接受输出，都是重要信号，但它们仍然要定期回到人的目标、业务结果和客户体验里校准。

否则系统会变得很高效，也很自洽，最后优化的是内部代理指标。

Pendo这个案例的启发正在这里：它把代理的内部成功信号重新接回真实用户行为。

如果把这个案例转成自己的AI工程实践，我会先沉淀四条原则。

第一，编程代理的评价单位要从补丁上移到结果。

补丁成功率、测试通过率、合并请求合并率仍然重要，但它们是中间指标。更高一层要看用户问题是否减少、流程是否更顺、业务指标是否改善。

第二，追踪必须连接业务对象。

只记录工具调用的追踪，只能调试。连接用户、组织、会话、任务、成本、代码变更和反馈结果的追踪，才能进入治理。

第三，线上坏案例要成为评估的主要

← 上一篇：AI 搜索崛起，谷歌警示站长勿信捷径下一篇：人工智能浪潮下的人文思考 →