标签

AI代码生成率超六成,为何企业研发效率仍未突破?

发布时间:2026-06-09 12:35来源:微信阅读:2

AI代码生成比例突破50%,研发周期却未见缩短;非技术背景者借助Vibe Coding开发软件,但对其可靠性存疑。AI Coding能力已如此强大,企业级开发应用究竟卡在何处?

近期,InfoQ《极客有约》X AICon直播栏目特别邀请贰贰壹咨询合伙人&蜂量科技CEO张子天担任主持,与小红书AI Coding总架构师郑鑫祺、快手AI Coding负责人李京共同探讨,在AICon全球人工智能开发与应用大会2026上海站即将开幕之际,AI Coding在企业落地过程中面临的核心挑战。

部分核心观点如下:

善用AI工具≠个人提效,个人提效≠组织提效。

工具始终是途径,真正实现整体产出提升、人均效能提升、代码产量提升的,协同才是目标。协同体系不仅是多个Agent并行运作,更涉及人与AI协作关系的重新构建。

如今流行一种说法:Code is Cheap。以往是"Talk is Cheap, Show Me the Code",但现在Talk也不再廉价,你的想法表达、输入可能更加关键。

组织形态必然会发生变革,且已在演进中,更闭环、更有创造力的组织拥有更大的发展空间。

当Token单价足够低廉时,ToC应用反而会迎来更大爆发。

以下内容基于直播速记整理,经InfoQ删减。

李京:快手从Copilot时代开始智能化提效探索,经历了续写、Agentic多文件生成、到SDD推进复杂任务等阶段。续写时代AI代码贡献率仅为个位数,Agentic时代跃升至20%-30%,今年已达到50%-60%。但问题随之出现:工程师体感提效40%,研发周期却基本未变,个人承接需求数和团队产出均无明显提升。我们洞察到:会用AI工具≠个人提效,个人提效≠组织提效。问题主要在三个层面:组织层面仍沿用传统产研团队模式;协同层面,上下文在传递中持续流失;知识层面,业务知识、领域知识、研发知识未能有效沉淀与打通。

郑鑫祺:AI生成能力基本已不是问题,核心瓶颈在验证和前期对齐环节。AI提升了生产力,但交互链条各环节未能跟上。第二个问题是组织协同,AI让个人效率提升了,但整体组织效率是否还适合原有的传递链条值得商榷。第三个问题是,企业大型分布式系统过去过度微服务化和中台化设计,在AI环境下导致研发环境分散,需要工程治理与模型能力相互配合来解决。

李京:我们经历了几个发展阶段。第一阶段是AI First,即人运用AI,将传统工具与AI结合;第二阶段是AI Native,即整个体系为AI原生设计——从为人设计工具,到结合AI,再到部分工具专门为AI设计。

郑鑫祺:背后还涉及人与AI的地位设计哲学。AI工具发展迅猛,有的定位为助理型,有的在向独立个体方向发展。人的角色究竟是什么?在电商等复杂领域,人的决策判断依然关键;但也有很多确定的PMO流程,AI可以承担更多职责。这些都会导致协作关系变化,对上层工具设计提出不同要求。

张子天:AI到来后,大家常认为就是"金锄头"——皇帝种地也用金锄头,或者把驴换成AI机械驴,显然不是最佳实践。过去大规模研发中形成的岗位分工和协作方式,在AI Coding时代可能已不再适用。不只是研发层面的前后端合并,产品层面、需求业务方都需要重新整合,找到职能分工的新边界。但组织变革牵一发而动全身,大中型企业较为谨慎,只能循序渐进推进。

郑鑫祺:从Copilot到Agent Team,持续演进的是工具。但工具始终是手段,真正实现整体吞吐量提升、人均效率提升、代码产量提升的,协作才是终点。协作系统不只是多个Agent并行,还包含人和AI之间协作关系的重构。在我们Vibe Coding产品中,深度研究从需求到上线每个节点中人和AI的关系,哪些AI可以去决策和协作,哪些必须人来做关键判断。社区通用方案偏向单兵视角提效,在整个协作过程中是缺位的。推进也不能太激进,单兵阶段先达到一定指标,过程中用Claude加各种Harness体系丰富知识库和上下文采集,再慢慢往目标推进。

李京:年前后OpenClaw发布带来了开源形态和新使用模式,让更多人认识到Agent AI能做什么,之后大量非研发人员开始使用。关于Agent协作系统,我们做了几方面探索:一是生态建设,CLI加Skill让非研发人员在内部生态里实现角色提效;二是知识打通,实现团队层面的互联互通;三是任务编排,业界有Web看板或以角色划分组建Agent Team等方式,但还没有特别成熟的方案。

李京:我们走了几个阶段。第一阶段做研发域和业务域知识构建,类似Project Wiki,跟业务侧联动做业务属性标注,也面向AI做业务角度的组织,把工具使用等信息做成知识放进去。第二阶段做流转平台,从需求分析、灌入任务,到PRD、单测、代码产生,整个链条串联。第三阶段是"自进化"——知识需要迭代起来不是死的,随着大家重点迭代方向和Skill使用情况,去迭代AgentOS里的知识和记忆体系。

郑鑫祺:现在每个人在单仓里已沉淀了很多Knowledge,不管是Code Graph还是PRD、各种总结。缺的是怎么提升SDD模式中Spec的质量和降低对话成本。花两小时对齐Spec再加一小时CR,和熟练工程师上手差不多。Spec质量上,更关键的是记忆的迭代和关键记忆的抽象。早期推动容易没指标牵引,大家都在整资料,指标最终最关键。

李京:在有限上下文下,不可能把所有知识全灌进去。除了上下文迭代策略,我们也在效果层面做把控,每个环节针对性沉淀评测和用例,保证Agent按效果优先的方式不断提升。

郑鑫祺:中小团队反而有更成熟的方案可直接使用。大厂因为有大量历史技术债和过度设计系统,需要花更多时间建设"航空母舰"。中小团队系统架构接近社区,Claude Code加Harness体系本身是Work的,纳入更快。但核心要关注效果优先——做了很多Knowledge结果效果没变化,沉浸于"赛博精神病"里。Spec对焦轮数、采纳率等指标要非常关注,以此反推知识沉淀。

李京:中小团队落地更快速。社区里Claude Code、OpenCode、各种Agent和Harness,买几个Token Plan就能有效Run起来。即使大企业,优秀实践也是把大组织拆成小团队,通过Rules、AgentsMD、Spec等逐渐形成标准化。Agent基础设施、使用实践、研发流程,都有成型方案。

郑鑫祺:小团队核心要关注成本,很多测试烧了非常多Token,要用更低成本把事做成。

李京:长任务是我们一个专门的研究方向,在"不计成本"的情况下,Agent能不能完成更复杂的任务。目标就是让Agent不间断地执行,一直到完成任务。

我们分两个阶段来看。第一阶段是Human in the Loop,人需要跟Agent交互。第二阶段是Human on the Loop,人抽离出来,作为观测者看Agent执行,怎么去纠偏。

在第一阶段,当人需要参与Agent循环时,复杂任务执行的回退成本越来越高,因为它改的代码非常多,回退时影响很大。我们做了几个方面的探索:

在前置环节,一是任务澄清,我们跟这个方向叫"主动性",希望Agent在执行任务或做计划之前,先了解清楚自己是不是真的理解了问题。当时我们做了探索,让Agent主动问我问题,当它不清楚的时候要不断问。后来发现社区的Superpower也有这个过程。二是计划,也就是SDD,希望在前置把计划做得更明确。我访谈过一些同学,他们甚至已经不去看写代码的过程了,但一定要看写计划的过程。在前置确认计划OK,最终代码因为现在Agent或模型比较强,基本也就没有太大偏差。

在后置环节,Agent写的代码越来越多,让人Review也变复杂了。我们做了两个探索:一是让代码变更可视化,让人更快Review;二是让Agent交叉Review,或者做测试计划并把测试结果执行出来做Verify。

第二阶段,人作为观察者,让Agent自我执行复杂任务。我们主要在加强做计划和做Research的能力,让Agent做出来的计划基本能完全一把过,写出来的效果在前置就有很好的把控。

还有一个中间探索:上下文窗口有限,如果不断往里塞东西会出问题。所以我们做了SubAgent的探索,在前置、后置以及中间执行环节里,让更合适的模型、更合适的Agent去做更合适的事情,一定程度上保证上下文不被浪费过多,信息不会太失真。

郑鑫祺:在小红书Vibe Coding场景,面向非研发群体,很多时候追求的是0 Code。0 Code的背后,在Human in the Loop情况下,更多是Shape Up理念的应用:先给一些模糊的东西,AI来问精准的问题,再给一个Demo,再往下跑。

在实践完了之后,到了真正产出质量的阶段,对于非研发或产品人员来说很难去纠正,这时候就需要模型去执行,所以这里有非常多的模型控制论和模型智能之间的Balance。模型智能在不断增加,但因为Context Length和Transformer的上限,上下文问题始终需要精细化控制和解决。这不是OpenClaw带来的AgentOS能解决的问题,它更多解决的是生态问题:让更低成本地融合Skill。但在模型控制的角度,还是需要更精细地把专家经验融入进去,变成一个Workflow。

在我们的实践中,小红书自研了整套上下文框架和Agentic体系,来保障每个关键决策和判断能被精细控制,各种Hook、各种纠正模型行为的手段,来保证质量达到90分甚至100分。但它一定会牺牲一些泛化性。这也是后续要解决的:先精再泛,在泛的过程中再去看如何利用好泛的Skill和精致的东西来编排精的流程。

对于Human in the Loop,背后更多是Shape Up理念在产品中的运用,即什么时候该问。Claude Code有时候问得非常打断人,有时候沟通几个小时,这不可接受。所以需要一个更好的设计哲学,定义流程让AI遵守,包括怎么更好地探索、什么时候不让AI说话、什么时候命中。这块如果要做精细,确实有很大投入。但模型在增长,这块始终是一个需要打磨的方向,让效果一直冲到100%。

郑鑫祺:中小团队或AI Native型组织,给AI更多自主权,定期关注腐化走势、定期重构。大厂逻辑下,关键决策依然靠人,比如SDD确认是人来做决策,不是让AI直接往下跑,因为很多东西不可逆或成本很高,数据库塞乱了影响面就很大。长程任务要做更多Verify的精细制作,前端有UI比对,中间有TDD驱动开发,还有各种自动化测试。最后的CR环节是核心信任度——线上出了Bug都修不来了,因为对AI掌控度不够了。原来只看Diff的CR方式不够,需要更有追溯链的CR方式。但最终上线的Confirm一定是人来确认。

李京:现在有一种说法:Code is Cheap。以前是"Talk is Cheap, Show Me the Code",但现在Talk也没那么Cheap了,你的想法表达、输入可能更重要。非严肃场景就看效果,代码可维护性基本不用看。严肃生产系统分三个角度:一是AI为什么写出烂代码?可能是没把代码规范和架构设计适配到它的角度,更前置地告诉Agent怎么写代码,烂代码的可能性就降低;二是写完代码让Agent交叉CR,用智能化Review校验;三是AI具备自我迭代能力,遇到Bug可以先自己改一轮。归纳为:架构设计提前告知AI;交叉Review;Agent自我迭代、Verify和Auto Fix。

郑鑫祺:要产出有品味的代码,还是需要架构师来定。你给它的Knowledge、Trade Off、Spec中的每个Choice,未来会被记忆住。同样的工具,外包同学和架构师使用的效果差距很大。优秀的人依然非常重要。

张子天:AI对人的能力放大效果非常明显,能力越强的人放大越多。

李京:最早建立浅层指标如代码生成率、智能CR生成率等,但最终看的是哪些被真实采纳、真正起到效果。度量体系很重要。

郑鑫祺:指标要和阶段目标相关。推广期以渗透率和AI代码占比来看,用AI就认为拥抱AI。都用AI之后就要看速度和价值。速度就是人均吞吐,类似复杂度的需求原来排期五六天,估时降低了人没变,AI贡献就更大。价值方面,哪些Demo真正产出了有价值的东西。Valueless应用太多就很难平衡Token价值。还提出Benchmark驱动方式,按阶段拆二三级指标跟进与行业SOTA比较。

李京:内部有专门的架构治理组,在AI时代建立了工程架构度量体系,对架构质量评分,一定程度上防止了架构和技术劣化。快手的另一个探索是需求分层(L1-L4):L2是Agent辅助;L3是Agent更多协同;L4是Agent端到端交付。不同层级有不同观测——L4希望AI端到端交付,把控指标更多看AI真正完成的效果和需求吞吐是不是真的变化。

李京:这件事确实在发生。AI Coding本来为研发群体做的,但研发群体在少数,今年越来越多非研发涌入。社区里判断:Coding本质是软件的表达形式,是创作,就像写文字,创作软件未来会平权到每个人。我们甚至做了基础设施:AI写完代码做成Skill,跟企业内部登录系统打通,用泛域名提供域名,把静态文件和服务用Serverless跑起来,接云DB。运营用它做报名系统,财务做分析小系统,更多人把想法以网页表达出来。

郑鑫祺:硅谷很多人眼中未来Office就是Claude Code。OpenClaw火了后越来越多同学因AI扶持Builder出很多有价值的项目。小红书给非研发做了很多工具,包括我负责的Muse,直接创意后部署上线,有数据库、有AI。核心还是看谁能发现需求、了解用户、有品味判断力。技术人员在专精领域还是主体,但纯写代码要求会更高。

张子天:过去研发像"雕版印刷",只有少数人识字、会编程。现在有了AI Coding就像"活字印刷术",让更多人掌握了编排和印刷技术。

郑鑫祺:最终上线和负责还是有人把控,不是AI直接发布。如果今天有AI直接发布,那一定是Demo,类似内部社区做内容,不是直接面向用户的。整个过程人的把控在小红书一直非常关注,不会直接上线。

李京:如果把Coding能力开放给大家,尤其做偏生产级系统,确实需要保障。数据安全方面,非专业计算机训练的人Sense没那么全面,危险操作(数据库、发布)、接支付、API对接出去都有风险。面向非研发的系统需要特别关注。除了安全还有成本,非研发人员Create或产出,ROI也需要衡量。

郑鑫祺:核心还是最终质量和安全依然由原来的人把控。AI帮非研发做自动化工具、做报告、数据分析,大家Build自己的助理,做Demo也能很快跑通,这块比较成熟。但要做大型应用,依然需要安全、数据等专家把关。

郑鑫祺:本质是顶层指标拆解的逐步演进过程。关注工具渗透就埋渗透数据,关注使用效果就统计需求吞吐情况,更精细的包括采纳率、知识命中率等。

李京:在不同阶段看不同指标,从渗透到AI代码贡献,再到ROI和需求吞吐。快手还做了需求分层(L1-L4):L2是Agent辅助,L3是Agent更多协同,L4是Agent端到端交付。不同层级有不同观测。

李京:确实会有这个问题。我们在做需求分级时经过了比较多的讨论,而且是拿着真实需求去拆解的。

郑鑫祺:这确实是大家都面临的问题:工具很多,需求到底用什么样的方式去推?很多时候中台认的L4方向,但演进过程中业务又要发展,一定会有一个渐进式推进的过程。有时这个需求是L2,过段时间工具成熟了可能变成L3或L4。需要业务架构师动态判断。

李京:不会断层。AI来了之后能力边界变得很扩充。首先,初级和高级的分层开始模糊——跟AI不断对话中AI会给人很多启发,之前需要经验积累的知识AI一定程度上能补齐,但需要经验把控的地方还是有的。具备好奇心、动手能力、创意和分享能力的同学成长更快。其次,职能边界也开始模糊——程序员跟AI共创时可以写出竞品调研方案和PRD,用AI工具画出高保真原型,能力边界被很大扩充了。

郑鑫祺:不管初级还是高级,定义没那么重要了,可能就是个符号。在不同领域,品味、判断和创造力的内涵不一样——做大模型是技术判断,想做调酒小程序是要更懂那些人和需求。但有一点是肯定的:要以Builder的心态去看问题,要有好奇心。Hackathon里那些同学比较有这种Taste,有小创意自己去Build,快速学习、自我迭代。

张子天:好比汽车工业早期,驾驶者是少数。当自动挡和新能源车出现后,人人都会开车了。评判标准可能都已经变化,不是能力强弱的问题,而是分领域了。

郑鑫祺:Cursor、Claude Code等热门产品大部分是单兵控制面,核心设计是一个开发者在屏幕面前,AI帮他把活干快。这是以模型视角出发、以超级个体效率最大化为目标的方向。小组织、AI Native完全采购用社区方案就好。但企业级复杂协同场景下,一个需求提出到上线跨越多个系统、多个仓库、多个团队、多个云环境,模型公司的单兵工具天然不会碰这一层。需要自建知识和工具,使用社区方案去运用,实现生产关系和生产模式的进化。

李京:一人公司懂代码的,社区方案拿来直接用。创业团队看当前阶段目标,如果目标就是更快完成业务、更快赚钱,ROI能打正的情况下直接采购更好。大型组织自研有几个方向:一是Skill生态跟企业内部打通,构建成本不一定高但收益高;二是配套基础设施如知识工程;三是数据安全等红线,甚至需要模型层自部署。分场景、分阶段来看。

郑鑫祺:核心还是看你当下要解决什么问题。尤其针对非以研发产品为核心的企业,能自己做的部分越少越好,更多还是用好这个能力,提高企业产业效能。

郑鑫祺:改变的已经不是软件公司了。Anthropic预测2026年有一人独角兽,现在已经出现了,不是终点是起点。到2028年不存在纯粹的软件公司,所有公司都是AI公司,区别是谁先想明白。改变的不是程序员,而是整个交付链条上每个角色存在的理由。但我还是认为有品味、有判断的人依然非常重要。AI和人的关系最多到Peer,现在可能是助理,但不应该是奴役人的方式创造价值。核心竞争力是你能不能先发现别人没发现的需求,更快创造价值、得到收入。

李京:变化是天翻地覆的。Anthropic一直说自己的代码90%以上是AI写的。组织形态肯定会变化,而且已经在发生,更闭环、更具创造力的组织,迭代空间更大。同理,即使在更远的以后,人的判断和品味也非常重要,能做出的作品还是不一样的。

郑鑫祺:模型上限还没完全Touch到,硅谷很多人认为预训练还有很大空间。但上下文长度没解决,这两年还是有很多上下文工程和场景工作要做,并不是AGI就出来了。人的关注点可能不是像以前钻在知识理性的逻辑链中,感性经济或被忽视的东西可能更重要。

李京:现在好模型成本还挺高。假如两年后基建和技术突破,模型成本降到极低,像SSD硬盘从很贵变成廉价基础设施,就像用电一样,更多改变会发生。消耗Token没那么心疼了,会大幅释放个人和组织的生产力和创造力。

郑鑫祺:如果是那个模式,企业形态可能要另论了。但目前模型成本依然高昂,ToC AI应用首先要解决价值和成本问题。软硬一体公司可以把推理成本融到硬件里,解决一个领域的精致化服务达到ToC扩张。不然更多场景还在ToB,因为这样才能算清ROI。

张子天:好比移动互联网时代早期,10块钱30兆流量,到现在10块钱可以买好几百个G。当Token费用单价足够便宜时,ToC应用反而会更爆发出来。

企业级Agent落地,绕不开4个真实的工程问题。如何在Agent安全性和可用性之间找到平衡点?Agent需要什么样的记忆系统才能真正理解上下文?如何通过算法压榨实现智力增量与成本控制的极致平衡?多Agent协作,如何做到可观测、可治理、可控制?6月26-27日,AICon全球人工智能开发与应用大会·上海站国内头部公司的Agent实践,一次说透。