AI交付的核心在于客户价值实现
最近看到一个关于Pendo和LangSmith的合作案例,初看像是一篇普通的工具用户故事,但越琢磨越觉得,它揭示了一个更深层次的问题。
这个问题其实很直接:
人工智能落地是否成功,不能仅看AI是否完成了任务,而应关注客户价值是否真正得到了传递。
在编程代理领域,这个问题尤为突出。
代码被修改、合并请求被接受、测试通过、代理的输出看起来合理,这些当然很重要。但它们更像是过程中的证据。
真正的完成点,还是要回到实际使用场景中:
用户的问题是否减少了?体验是否更流畅了?业务指标是否朝着正确方向变化?这次AI的介入,最终是否把客户价值传递出去了?
Pendo和LangSmith的这个案例之所以值得关注,就是因为它把这条链条打通了。
过去的软件流程非常缓慢。
产品经理查看数据、采访用户、编写产品需求文档,开发人员修复问题,质量保证或用户验收测试验证,上线后继续观察。这里面有很多低效环节,也有不少组织摩擦。
但它至少保留了一个重要判断:
产品是否真正有用,需要回到用户行为中去确认。
AI编程工具出现后,最先加速的是“写代码、开合并请求、发布版本”这一环节。一个人可以同时处理多个任务,代理可以帮你修改代码、补充测试、生成补丁,很多原来卡在开发吞吐量上的事情,确实变快了。
问题也在这里出现。
当代码交付速度提升后,价值验证没有同步加快,系统就会出现新的不平衡。
软件发布得更快了。用户验收测试和产品验证变少了。用户真实问题更容易被忽略。补丁成功率和用户采用率/留存率之间开始出现差距。
这时,如果我们还只关注“代理能不能写代码”,就会错过真正的瓶颈。
新的瓶颈是:
价值验证的带宽。
也就是说,系统能否及时看到真实用户行为,能否从行为中识别问题,能否把问题映射到代码或系统原因,能否验证修复后用户体验是否真的改善。
AI编程提升的是代码吞吐量。
Pendo这个案例想补充的,是价值验证吞吐量。
这句话我觉得很关键。
Pendo的Novus是一个产品代理。
它从真实产品中的用户行为开始。
用户在页面中卡住了,漏斗转化率下降了,出现了愤怒点击,某个流程反复失败。Novus通过产品行为数据和会话回放看到这些问题,再用AI去解释背后的产品含义,进一步关联到代码上下文,最后生成修复建议。
这条链大致是这样的:
LangSmith在这里的角色,已经超出了普通日志系统。
它让团队能看到代理在这条链中到底做了什么:读取了什么输入,调用了什么工具,哪个子代理参与了判断,令牌和成本花在哪里,多轮对话是否走向解决,用户对输出的反馈如何。
更重要的是,追踪标签把用户名、会话ID、组织这些业务对象连接了起来。
这件事很小,但很关键。
只记录工具调用的追踪,主要帮助调试。能够连接用户、组织、会话、成本、反馈和代码变更的追踪,开始进入治理层面。
也就是说,团队不仅知道代理这次哪里错了,还能知道:
哪个客户在使用?哪个流程最昂贵?哪类问题最常出现?哪些线上失败应该进入下一轮评估?哪些用例应该沉淀成更稳定的提示词、工作流或产品能力?
这一步往前走,团队面对的是更高一层的问题:经营AI系统。
这篇案例中有一个细节,我觉得比工具功能本身更重要。
Pendo团队通过追踪发现,代理经常只使用产品分析数据,或者只使用代码上下文,很少把两者真正结合起来。
这就是典型的AI落地问题。
从输出看,代理可能也给出了一个答案。从流程看,它也调用了工具。从结果看,甚至可能生成了一个补丁。
但价值链中的关键整合动作没有发生。
产品问题要被正确修复,代理必须同时理解两类证据:
只看产品数据,容易停在现象层。只看代码上下文,容易修到局部实现。两者结合起来,才有机会把“用户体验问题”变成“可执行的工程修复”。
这也是追踪真正的价值:帮助团队看见AI系统有没有完成价值链中的关键动作。
如果借用前一天那套代理七层框架,不需要把七层完整铺开,这个案例最值得抓住的是五个落点。
第一是意图层。
成功标准从“生成代码”上移到“真实用户体验是否改善”。这一步很重要,因为成功标准决定了整个系统会优化什么。
第二是路由层。
代理要把产品行为、会话回放、代码上下文、用户反馈这些不同类型的上下文路由到同一个判断过程里。Pendo发现代理很少同时使用产品数据和代码上下文,本质上就是路由没有真正打通。
第三是状态层。
多轮对话、用户会话、会话ID、组织、追踪树,都在回答一个问题:这件事能不能被持续追踪。没有状态,问题就会散在日志、聊天和工单里。
第四是合成层。
系统要把行为异常、代码原因、修复建议和用户反馈合成一个可判断的结果。单轮输出看起来合理还不够,关键是这条问题轨迹有没有走向解决。
第五是治理层。
反馈评分、追踪标签、成本归因、线上坏案例回流到评估,这些决定了系统能不能越用越稳,越跑越知道自己该改哪里。
所以,这个案例没有必要完整展开七层。它非常清楚地打中了代理工程里最容易被忽略的一段:
从用户价值反馈反向牵引代理的任务定义、上下文路由、状态追踪、结果验收和治理反馈。
这里还有一个值得继续想的问题。
如果产品服务的是人,反馈速度天然有上限。
人需要真实使用产品,问题才会暴露。用户体验中有情境、情绪、任务目标和耐心成本。很多用户不会主动反馈,只会默默离开。
AI可以帮我们更快看会话回放,更快聚类问题,更快提出修复假设。但人的价值判断仍然是最终锚点。
如果系统服务的是另一个代理,反馈速度会变得很不一样。
API调用失败,可以马上返回错误码和追踪。编程代理修改后,可以马上跑测试、代码检查、基准测试。研究代理输出后,可以让评估代理检查引用、覆盖率和一致性。工作流代理完成任务后,下游系统可以立即判断是否进入下一步。
面向代理的系统的反馈闭环可以更快、更密、更自动化。
但这里也要小心。
机器反馈越快,越需要清楚的价值锚点。测试通过、评估器给高分、下游代理接受输出,都是重要信号,但它们仍然要定期回到人的目标、业务结果和客户体验里校准。
否则系统会变得很高效,也很自洽,最后优化的是内部代理指标。
Pendo这个案例的启发正在这里:它把代理的内部成功信号重新接回真实用户行为。
如果把这个案例转成自己的AI工程实践,我会先沉淀四条原则。
第一,编程代理的评价单位要从补丁上移到结果。
补丁成功率、测试通过率、合并请求合并率仍然重要,但它们是中间指标。更高一层要看用户问题是否减少、流程是否更顺、业务指标是否改善。
第二,追踪必须连接业务对象。
只记录工具调用的追踪,只能调试。连接用户、组织、会话、任务、成本、代码变更和反馈结果的追踪,才能进入治理。
第三,线上坏案例要成为评估的主要