AI代码生成率超六成，为何企业研发效率仍未突破？

发布时间：2026-06-09 12:35阅读：10

AI代码生成比例突破50%，研发周期却未见缩短；非技术背景者借助Vibe Coding开发软件，但对其可靠性存疑。AI Coding能力已如此强大，企业级开发应用究竟卡在何处？

近期，InfoQ《极客有约》X AICon直播栏目特别邀请贰贰壹咨询合伙人&蜂量科技CEO张子天担任主持，与小红书AI Coding总架构师郑鑫祺、快手AI Coding负责人李京共同探讨，在AICon全球人工智能开发与应用大会2026上海站即将开幕之际，AI Coding在企业落地过程中面临的核心挑战。

部分核心观点如下：

善用AI工具≠个人提效，个人提效≠组织提效。

工具始终是途径，真正实现整体产出提升、人均效能提升、代码产量提升的，协同才是目标。协同体系不仅是多个Agent并行运作，更涉及人与AI协作关系的重新构建。

如今流行一种说法：Code is Cheap。以往是"Talk is Cheap, Show Me the Code"，但现在Talk也不再廉价，你的想法表达、输入可能更加关键。

组织形态必然会发生变革，且已在演进中，更闭环、更有创造力的组织拥有更大的发展空间。

当Token单价足够低廉时，ToC应用反而会迎来更大爆发。

以下内容基于直播速记整理，经InfoQ删减。

李京：快手从Copilot时代开始智能化提效探索，经历了续写、Agentic多文件生成、到SDD推进复杂任务等阶段。续写时代AI代码贡献率仅为个位数，Agentic时代跃升至20%-30%，今年已达到50%-60%。但问题随之出现：工程师体感提效40%，研发周期却基本未变，个人承接需求数和团队产出均无明显提升。我们洞察到：会用AI工具≠个人提效，个人提效≠组织提效。问题主要在三个层面：组织层面仍沿用传统产研团队模式；协同层面，上下文在传递中持续流失；知识层面，业务知识、领域知识、研发知识未能有效沉淀与打通。

郑鑫祺：AI生成能力基本已不是问题，核心瓶颈在验证和前期对齐环节。AI提升了生产力，但交互链条各环节未能跟上。第二个问题是组织协同，AI让个人效率提升了，但整体组织效率是否还适合原有的传递链条值得商榷。第三个问题是，企业大型分布式系统过去过度微服务化和中台化设计，在AI环境下导致研发环境分散，需要工程治理与模型能力相互配合来解决。

李京：我们经历了几个发展阶段。第一阶段是AI First，即人运用AI，将传统工具与AI结合；第二阶段是AI Native，即整个体系为AI原生设计——从为人设计工具，到结合AI，再到部分工具专门为AI设计。

郑鑫祺：背后还涉及人与AI的地位设计哲学。AI工具发展迅猛，有的定位为助理型，有的在向独立个体方向发展。人的角色究竟是什么？在电商等复杂领域，人的决策判断依然关键；但也有很多确定的PMO流程，AI可以承担更多职责。这些都会导致协作关系变化，对上层工具设计提出不同要求。

张子天：AI到来后，大家常认为就是"金锄头"——皇帝种地也用金锄头，或者把驴换成AI机械驴，显然不是最佳实践。过去大规模研发中形成的岗位分工和协作方式，在AI Coding时代可能已不再适用。不只是研发层面的前后端合并，产品层面、需求业务方都需要重新整合，找到职能分工的新边界。但组织变革牵一发而动全身，大中型企业较为谨慎，只能循序渐进推进。

郑鑫祺：从Copilot到Agent Team，持续演进的是工具。但工具始终是手段，真正实现整体吞吐量提升、人均效率提升、代码产量提升的，协作才是终点。协作系统不只是多个Agent并行，还包含人和AI之间协作关系的重构。在我们Vibe Coding产品中，深度研究从需求到上线每个节点中人和AI的关系，哪些AI可以去决策和协作，哪些必须人来做关键判断。社区通用方案偏向单兵视角提效，在整个协作过程中是缺位的。推进也不能太激进，单兵阶段先达到一定指标，过程中用Claude加各种Harness体系丰富知识库和上下文采集，再慢慢往目标推进。

李京：年前后OpenClaw发布带来了开源形态和新使用模式，让更多人认识到Agent AI能做什么，之后大量非研发人员开始使用。关于Agent协作系统，我们做了几方面探索：一是生态建设，CLI加Skill让非研发人员在内部生态里实现角色提效；二是知识打通，实现团队层面的互联互通；三是任务编排，业界有Web看板或以角色划分组建Agent Team等方式，但还没有特别成熟的方案。

李京：我们走了几个阶段。第一阶段做研发域和业务域知识构建，类似Project Wiki，跟业务侧联动做业务属性标注，也面向AI做业务角度的组织，把工具使用等信息做成知识放进去。第二阶段做流转平台，从需求分析、灌入任务，到PRD、单测、代码产生，整个链条串联。第三阶段是"自进化"——知识需要迭代起来不是死的，随着大家重点迭代方向和Skill使用情况，去迭代AgentOS里的知识和记忆体系。

郑鑫祺：现在每个人在单仓里已沉淀了很多Knowledge，不管是Code Graph还是PRD、各种总结。缺的是怎么提升SDD模式中Spec的质量和降低对话成本。花两小时对齐Spec再加一小时CR，和熟练工程师上手差不多。Spec质量上，更关键的是记忆的迭代和关键记忆的抽象。早期推动容易没指标牵引，大家都在整资料，指标最终最关键。

李京：在有限上下文下，不可能把所有知识全灌进去。除了上下文迭代策略，我们也在效果层面做把控，每个环节针对性沉淀评测和用例，保证Agent按效果优先的方式不断提升。

郑鑫祺：中小团队反而有更成熟的方案可直接使用。大厂因为有大量历史技术债和过度设计系统，需要花更多时间建设"航空母舰"。中小团队系统架构接近社区，Claude Code加Harness体系本身是Work的，纳入更快。但核心要关注效果优先——做了很多Knowledge结果效果没变化，沉浸于"赛博精神病"里。Spec对焦轮数、采纳率等指标要非常关注，以此反推知识沉淀。

李京：中小团队落地更快速。社区里Claude Code、OpenCode、各种Agent和Harness，买几个Token Plan就能有效Run起来。即使大企业，优秀实践也是把大组织拆成小团队，通过Rules、AgentsMD、Spec等逐渐形成标准化。Agent基础设施、使用实践、研发流程，都有成型方案。

郑鑫祺：小团队核心要关注成本，很多测试烧了非常多Token，要用更低成本把事做成。

李京：长任务是我们一个专门的研究方向，在"不计成本"的情况下，Agent能不能完成更复杂的任务。目标就是让Agent不间断地执行，一直到完成任务。

我们分两个阶段来看。第一阶段是Human in the Loop，人需要跟Agent交互。第二阶段是Human on the Loop，人抽离出来，作为观测者看Agent执行，怎么去纠偏。

在第一阶段，当人需要参与Agent循环时，复杂任务执行的回退成本越来越高，因为它改的代码非常多，回退时影响很大。我们做了几个方面的探索：

在前置环节，一是任务澄清，我们跟这个方向叫"主动性"，希望Agent在执行任务或做计划之前，先了解清楚自己是不是真的理解了问题。当时我们做了探索，让Agent主动问我问题，当它不清楚的时候要不断问。后来发现社区的Superpower也有这个过程。二是计划，也就是SDD，希望在前置把计划做得更明确。我访谈过一些同学，他们甚至已经不去看写代码的过程了，但一定要看写计划的过程。在前置确认计划OK，最终代码因为现在Agent或模型比较强，基本也就没有太大偏差。

在后置环节，Agent写的代码越来越多，让人Review也变复杂了。我们做了两个探索：一是让代码变更可视化，让人更快Review；二是让Agent交叉Review，或者做测试计划并把测试结果执行出来做Verify。

第二阶段，人作为观察者，让Agent自我执行复杂任务。我们主要在加强做计划和做Research的能力，让Agent做出来的计划基本能完全一把过，写出来的效果在前置就有很好的把控。

还有一个中间探索：上下文窗口有限，如果不断往里塞东西会出问题。所以我们做了SubAgent的探索，在前置、后置以及中间执行环节里，让更合适的模型、更合适的Agent去做更合适的事情，一定程度上保证上下文不被浪费过多，信息不会太失真。

郑鑫祺：在小红书Vibe Coding场景，面向非研发群体，很多时候追求的是0 Code。0 Code的背后，在Human in the Loop情况下，更多是Shape Up理念的应用：先给一些模糊的东西，AI来问精准的问题，再给一个Demo，再往下跑。

在实践完了之后，到了真正产出质量的阶段，对于非研发或产品人员来说很难去纠正，这时候就需要模型去执行，所以这里有非常多的模型控制论和模型智能之间的Balance。模型智能在不断增加，但因为Context Length和Transformer的上限，上下文问题始终需要精细化控制和解决。这不是OpenClaw带来的AgentOS能解决的问题，它更多解决的是生态问题：让更低成本地融合Skill。但在模型控制的角度，还是需要更精细地把专家经验融入进去，变成一个Workflow。

在我们的实践中，小红书自研了整套上下文框架和Agentic体系，来保障每个关键决策和判断能被精细控制，各种Hook、各种纠正模型行为的手段，来保证质量达到90分甚至100分。但它一定会牺牲一些泛化性。这也是后续要解决的：先精再泛，在泛的过程中再去看如何利用好泛的Skill和精致的东西来编排精的流程。

对于Human in the Loop，背后更多是Shape Up理念在产品中的运用，即什么时候该问。Claude Code有时候问得非常打断人，有时候沟通几个小时，这不可接受。所以需要一个更好的设计哲学，定义流程让AI遵守，包括怎么更好地探索、什么时候不让AI说话、什么时候命中。这块如果要做精细，确实有很大投入。但模型在增长，这块始终是一个需要打磨的方向，让效果一直冲到100%。

郑鑫祺：中小团队或AI Native型组织，给AI更多自主权，定期关注腐化走势、定期重构。大厂逻辑下，关键决策依然靠人，比如SDD确认是人来做决策，不是让AI直接往下跑，因为很多东西不可逆或成本很高，数据库塞乱了影响面就很大。长程任务要做更多Verify的精细制作，前端有UI比对，中间有TDD驱动开发，还有各种自动化测试。最后的CR环节是核心信任度——线上出了Bug都修不来了，因为对AI掌控度不够了。原来只看Diff的CR方式不够，需要更有追溯链的CR方式。但最终上线的Confirm一定是人来确认。

李京：现在有一种说法：Code is Cheap。以前是"Talk is Cheap, Show Me the Code"，但现在Talk也没那么Cheap了，你的想法表达、输入可能更重要。非严肃场景就看效果，代码可维护性基本不用看。严肃生产系统分三个角度：一是AI为什么写出烂代码？可能是没把代码规范和架构设计适配到它的角度，更前置地告诉Agent怎么写代码，烂代码的可能性就降低；二是写完代码让Agent交叉CR，用智能化Review校验；三是AI具备自我迭代能力，遇到Bug可以先自己改一轮。归纳为：架构设计提前告知AI；交叉Review；Agent自我迭代、Verify和Auto Fix。

郑鑫祺：要产出有品味的代码，还是需要架构师来定。你给它的Knowledge、Trade Off、Spec中的每个Choice，未来会被记忆住。同样的工具，外包同学和架构师使用的效果差距很大。优秀的人依然非常重要。

张子天：AI对人的能力放大效果非常明显，能力越强的人放大越多。

李京：最早建立浅层指标如代码生成率、智能CR生成率等，但最终看的是哪些被真实采纳、真正起到效果。度量体系很重要。

郑鑫祺：指标要和阶段目标相关。推广期以渗透率和AI代码占比来看，用AI就认为拥抱AI。都用AI之后就要看速度和价值。速度就是人均吞吐，类似复杂度的需求原来排期五六天，估时降低了人没变，AI贡献就更大。价值方面，哪些Demo真正产出了有价值的东西。Valueless应用太多就很难平衡Token价值。还提出Benchmark驱动方式，按阶段拆二三级指标跟进与行业SOTA比较。

李京：内部有专门的架构治理组，在AI时代建立了工程架构度量体系，对架构质量评分，一定程度上防止了架构和技术劣化。快手的另一个探索是需求分层（L1-L4）：L2是Agent辅助；L3是Agent更多协同；L4是Agent端到端交付。不同层级有不同观测——L4希望AI端到端交付，把控指标更多看AI真正完成的效果和需求吞吐是不是真的变化。

李京：这件事确实在发生。AI Coding本来为研发群体做的，但研发群体在少数，今年越来越多非研发涌入。社区里判断：Coding本质是软件的表达形式，是创作，就像写文字，创作软件未来会平权到每个人。我们甚至做了基础设施：AI写完代码做成Skill，跟企业内部登录系统打通，用泛域名提供域名，把静态文件和服务用Serverless跑起来，接云DB。运营用它做报名系统，财务做分析小系统，更多人把想法以网页表达出来。

郑鑫祺：硅谷很多人眼中未来Office就是Claude Code。OpenClaw火了后越来越多同学因AI扶持Builder出很多有价值的项目。小红书给非研发做了很多工具，包括我负责的Muse，直接创意后部署上线，有数据库、有AI。核心还是看谁能发现需求、了解用户、有品味判断力。技术人员在专精领域还是主体，但纯写代码要求会更高。

张子天：过去研发像"雕版印刷"，只有少数人识字、会编程。现在有了AI Coding就像"活字印刷术"，让更多人掌握了编排和印刷技术。

郑鑫祺：最终上线和负责还是有人把控，不是AI直接发布。如果今天有AI直接发布，那一定是Demo，类似内部社区做内容，不是直接面向用户的。整个过程人的把控在小红书一直非常关注，不会直接上线。

李京：如果把Coding能力开放给大家，尤其做偏生产级系统，确实需要保障。数据安全方面，非专业计算机训练的人Sense没那么全面，危险操作（数据库、发布）、接支付、API对接出去都有风险。面向非研发的系统需要特别关注。除了安全还有成本，非研发人员Create或产出，ROI也需要衡量。

郑鑫祺：核心还是最终质量和安全依然由原来的人把控。AI帮非研发做自动化工具、做报告、数据分析，大家Build自己的助理，做Demo也能很快跑通，这块比较成熟。但要做大型应用，依然需要安全、数据等专家把关。

郑鑫祺：本质是顶层指标拆解的逐步演进过程。关注工具渗透就埋渗透数据，关注使用效果就统计需求吞吐情况，更精细的包括采纳率、知识命中率等。

李京：在不同阶段看不同指标，从渗透到AI代码贡献，再到ROI和需求吞吐。快手还做了需求分层（L1-L4）：L2是Agent辅助，L3是Agent更多协同，L4是Agent端到端交付。不同层级有不同观测。

李京：确实会有这个问题。我们在做需求分级时经过了比较多的讨论，而且是拿着真实需求去拆解的。

郑鑫祺：这确实是大家都面临的问题：工具很多，需求到底用什么样的方式去推？很多时候中台认的L4方向，但演进过程中业务又要发展，一定会有一个渐进式推进的过程。有时这个需求是L2，过段时间工具成熟了可能变成L3或L4。需要业务架构师动态判断。

李京：不会断层。AI来了之后能力边界变得很扩充。首先，初级和高级的分层开始模糊——跟AI不断对话中AI会给人很多启发，之前需要经验积累的知识AI一定程度上能补齐，但需要经验把控的地方还是有的。具备好奇心、动手能力、创意和分享能力的同学成长更快。其次，职能边界也开始模糊——程序员跟AI共创时可以写出竞品调研方案和PRD，用AI工具画出高保真原型，能力边界被很大扩充了。

郑鑫祺：不管初级还是高级，定义没那么重要了，可能就是个符号。在不同领域，品味、判断和创造力的内涵不一样——做大模型是技术判断，想做调酒小程序是要更懂那些人和需求。但有一点是肯定的：要以Builder的心态去看问题，要有好奇心。Hackathon里那些同学比较有这种Taste，有小创意自己去Build，快速学习、自我迭代。

张子天：好比汽车工业早期，驾驶者是少数。当自动挡和新能源车出现后，人人都会开车了。评判标准可能都已经变化，不是能力强弱的问题，而是分领域了。

郑鑫祺：Cursor、Claude Code等热门产品大部分是单兵控制面，核心设计是一个开发者在屏幕面前，AI帮他把活干快。这是以模型视角出发、以超级个体效率最大化为目标的方向。小组织、AI Native完全采购用社区方案就好。但企业级复杂协同场景下，一个需求提出到上线跨越多个系统、多个仓库、多个团队、多个云环境，模型公司的单兵工具天然不会碰这一层。需要自建知识和工具，使用社区方案去运用，实现生产关系和生产模式的进化。

李京：一人公司懂代码的，社区方案拿来直接用。创业团队看当前阶段目标，如果目标就是更快完成业务、更快赚钱，ROI能打正的情况下直接采购更好。大型组织自研有几个方向：一是Skill生态跟企业内部打通，构建成本不一定高但收益高；二是配套基础设施如知识工程；三是数据安全等红线，甚至需要模型层自部署。分场景、分阶段来看。

郑鑫祺：核心还是看你当下要解决什么问题。尤其针对非以研发产品为核心的企业，能自己做的部分越少越好，更多还是用好这个能力，提高企业产业效能。

郑鑫祺：改变的已经不是软件公司了。Anthropic预测2026年有一人独角兽，现在已经出现了，不是终点是起点。到2028年不存在纯粹的软件公司，所有公司都是AI公司，区别是谁先想明白。改变的不是程序员，而是整个交付链条上每个角色存在的理由。但我还是认为有品味、有判断的人依然非常重要。AI和人的关系最多到Peer，现在可能是助理，但不应该是奴役人的方式创造价值。核心竞争力是你能不能先发现别人没发现的需求，更快创造价值、得到收入。

李京：变化是天翻地覆的。Anthropic一直说自己的代码90%以上是AI写的。组织形态肯定会变化，而且已经在发生，更闭环、更具创造力的组织，迭代空间更大。同理，即使在更远的以后，人的判断和品味也非常重要，能做出的作品还是不一样的。

郑鑫祺：模型上限还没完全Touch到，硅谷很多人认为预训练还有很大空间。但上下文长度没解决，这两年还是有很多上下文工程和场景工作要做，并不是AGI就出来了。人的关注点可能不是像以前钻在知识理性的逻辑链中，感性经济或被忽视的东西可能更重要。

李京：现在好模型成本还挺高。假如两年后基建和技术突破，模型成本降到极低，像SSD硬盘从很贵变成廉价基础设施，就像用电一样，更多改变会发生。消耗Token没那么心疼了，会大幅释放个人和组织的生产力和创造力。

郑鑫祺：如果是那个模式，企业形态可能要另论了。但目前模型成本依然高昂，ToC AI应用首先要解决价值和成本问题。软硬一体公司可以把推理成本融到硬件里，解决一个领域的精致化服务达到ToC扩张。不然更多场景还在ToB，因为这样才能算清ROI。

张子天：好比移动互联网时代早期，10块钱30兆流量，到现在10块钱可以买好几百个G。当Token费用单价足够便宜时，ToC应用反而会更爆发出来。

企业级Agent落地，绕不开4个真实的工程问题。如何在Agent安全性和可用性之间找到平衡点？Agent需要什么样的记忆系统才能真正理解上下文？如何通过算法压榨实现智力增量与成本控制的极致平衡？多Agent协作，如何做到可观测、可治理、可控制？6月26-27日，AICon全球人工智能开发与应用大会·上海站国内头部公司的Agent实践，一次说透。

← 上一篇：崔泰源黄仁勋会面敲定合作，SK电讯与英伟达共建亚洲AI云下一篇：丰和泰 5 月 AI 漫剧数据报告：播放量突破 3.7 亿 →