AI 的最后一公里：与其追求更聪明的模型，不如优化底层架构

发布时间：2026-04-21 23:20阅读：22

展望 2026 年的 AI 发布会，开场总是那三张老面孔：参数更大的模型、运算更快的芯片、能力更强的 Agent。唯独少了至关重要的一张——如何将这些能力真正落地到用户手中。这张缺失的拼图，恰恰是未来十年价值密度最高的区域。它不依赖于新一轮的模型微调，而是取决于我们技术栈中最不起眼、最枯燥的部分：基础设施。

数据同样印证了这一观点。据麻省理工学院（MIT）2025 年《State of AI in Business》报告指出，高达 95% 的生成式 AI 试点最终未能投入生产。Gartner 的研究也显示，仅有 15% 的 IT 负责人在尝试完全自主的 Agent，尽管 Agent 市场规模将从 2025 年的 78 亿美元飙升至 2030 年的 526 亿美元。问题不在于智能。顶尖模型在 SWE-bench Verified 基准测试中的得分已稳定在 70-75% 区间。真正的阻碍在于从“一个能写代码的模型”跨越到“一个能交付产品的组织”之间的所有中间环节——而这些环节，归根结底都是基础设施。

不妨把这套“激进观点”说得直白些：编程成本正在急剧下降，而基础设施的价值却在攀升。AI 的叙事习惯将 DevOps、CI/CD、容器、Kubernetes 等视为“已解决的基础设施问题”，但它们恰恰是将 AI 转化为实际产品的关键杠杆。原因很简单：现在的 Agent 虽然能编写代码，却无法独立完成一次构建运行，也扛不住一次部署，更无法自主决定回滚或扩容。它需要一个坚实的底座来处理这些事务——这个底座，正是过去二十年 DevOps 积累下来的、经过无数次故障考验且几乎零成本的资产。

本文旨在阐明一个核心论点：AI 的最后一公里不在于智能，而在于基础设施——谁在基础设施领域持续积累，谁就能在交付效率上碾压那些只会堆砌 Prompt 的竞争对手。接下来的内容将探讨四个方面：当编程商品化后，价值流向何处；为何 DevOps 是 AI Agent 的理想自动化基石；关于“AI 最终将吞噬基础设施”这一反方观点的辩证分析；以及，个人应如何规划当下的学习路径。

这一前提已无需多言。斯坦福大学对近 10 万名开发者的 2025 年生产力研究显示，扣除返工成本后，AI 带来的净收益约为 15-20%——这虽不算差，但远未达到“10 倍工程师”的营销承诺。METR 针对资深开源开发者的随机对照试验更为犀利：使用 AI 的开发者完成任务实际上多花了 19% 的时间，尽管他们自认为快了 20%，感知与事实之间存在 39 个百分点的巨大鸿沟。2026 年更大规模的复现将结果收敛在 -4% 左右，但核心结论依旧：打字速度快，并不意味着交付速度快。

这些数据并非为了证明“编程已死”，而是为了揭示另一事实：正确代码的边际成本正趋近于零，但从“一段正确代码”转化为“一个已上线功能”之间的鸿沟，远比 AI 叙事所暗示的要大得多、也昂贵得多。真正的价值正潜藏在这个缝隙之中。

经济学中有一条关于“要素变便宜”的古老规律：其互补品往往会升值。廉价钢铁并未让钢铁工人增值，却让电梯、空调和结构工程师身价倍增。同理，廉价算力并未让软件本身升值，却让数据库、网络以及 DevOps 变得更加珍贵。这场重新定价的浪潮正席卷软件工程领域：上层受益，底层受益，唯有中间层面临挤压。

顶层——产品感、规格、架构决策——之所以升值，是因为必须有人决定让这位廉价的“码农”去构建什么。这正是规格驱动开发（SDD）和 LeanSpec 兴起的逻辑：代码沦为衍生物，规格成为唯一权威。这也解释了为何 AI 时代的技术领导更像是挑选协作者，而非挥舞更大的锤子。底层——基础设施——升值的逻辑则截然不同。一个 diff 不是一个产品，一个已合并的 PR 也不代表产品。产品是指代码在真实用户环境中安全运行、可观测且具备回滚能力。从“Agent 生成代码”到“用户看到功能”之间的所有环节，皆是基础设施。编程成本虽降了十倍，但将代码从本地传送到用户屏幕的成本并未降低。价值便集中在这两条成本曲线的夹缝之中。

被挤压的中间层便是纯编程，即“打字”环节。这部分工作不会消失，只会沦为最低门槛。2026 年，一位擅长写函数却对构建、部署、监控、回滚一窍不通的资深工程师，与“Agent 加初级 Reviewer”的组合将越来越难以区分；反之，一位能掌控从创意到生产全流程的资深工程师，依然是稀缺资源。关于这种“资深”的定义，我们早在 2022 年就已探讨——AI 只是让这条演变轨迹加速了而已。

这里有一个鲜为人知的论点：AI Agent 并不需要全新的基础设施，它需要的是我们早已建好的那一套。过去十五年，DevOps 积累了一件神奇之物——一个全球部署、由 API 驱动、以声明式配置的自动化网络——它就在那里，近乎免费，静待一个合适的调用方。这个调用方，最终是 Agent。

调研数据已将这一议题摆上台面。2025 年 DORA《AI-Assisted Software Development》报告基于近 5000 名从业者指出，90% 的组织至少采用了一个内部平台，且“高质量的内部平台与组织释放 AI 价值的能力呈正相关”。The New Stack 在 2026 年 1 月的分析更为直白：“平台工程与 AI 正在融合，前者已成为部署后者的黄金标准”。与此同时，CNCF 2025 年度调研显示 82% 的容器用户在生产环境运行 Kubernetes——较 2023 年的 66% 大幅提升——并宣布 Kubernetes 为“AI 的现实操作系统”。

让我们剥去术语的外衣，审视一下 DevOps 多年来的积累：

表中每一行都是声明式、幂等且可通过 API 调用的。这绝非偶然。DevOps 耗时十五年，将运维知识转化为 YAML、HCL 和 HTTP 接口——这恰好是 LLM 驱动的 Agent 最适宜的交互形态。我们当初搭建这层底座，并非为了 AI，而是为了避免凌晨三点被叫醒。它意外地成为了自主 Agent 的理想交互界面，堪称云计算时代的一份厚礼——亦可视作第二次工业革命。

结论具体而明确。“AI 原生”并非围绕向量数据库重写技术栈，而是将 Agent 接入现有的自动化底座——即我们在 2026 年 Agent 全景图第 5 层（执行底座）中所勾勒的那一层。

来看一个具体案例。在旧循环中，开发者调试、提交、开 PR、等待 CI、等待 Review、合并、紧盯部署、查看仪表盘、出事则回滚。这一流程耗时数小时至数天，全程消耗人类精力。我们在 2022 年为大型项目搭建 GitHub Actions 时就已描述过这套流程的规模——它并非为 AI 而生。在新循环中，人类仅描述意图，Agent 生成 diff，CI/CD 即为运行时，容器为可移植层，Kubernetes 为调度器，可观测性为反馈通道，策略为护栏。人类时间被压缩至“意图输入、审批输出”两端，中间全由基础设施支撑。

请注意画面中什么并未改变。MCP、A2A、Agent Harness 确实重要，但它们只是架设在现有底座之上的薄薄一层。真正昂贵且困难的，是底下的“无聊”部分。若没有这层底座，无论 Prompt 写得多漂亮，团队也无法将 Agent 推向生产——这正是 MIT 所指“95% 失败率”的度量标准。

📝 核心论断> Agent 的扩展不依赖智能，而取决于你能将其指向多少确定性、声明式且可通过 API 调用的系统。这片可调用面的总和，正是 DevOps 二十年的积累。

最自然的反方观点是：AI 最终将吞噬基础设施。Operator 将实现自愈，Agent 将自动编写 Terraform，Kubernetes 将成为不可见的实现细节。这些说法虽有部分道理，但不足以推翻前述结论。理由有三点。

**第一，基础设施是有状态的，而这正是 LLM 的短板。**编写函数是无状态问题：输入输出，可在隔离环境测试。运行系统是有状态问题：操作正确与否取决于当前集群状态、负载、版本、事故及账单周期。LLM 在有状态问题上极易“一本正经地胡说八道”，因训练分布是代码而非运行系统——正如我们在《AI Agents 工程》一文中所分析的失败模式。DORA 2025 报告用数据佐证：AI 采用率与吞吐量正相关，却与“更高不稳定性（更多失败、返工、周期延长）”正相关。打字快易，维持稳定难。懂“状态”的人将在回路中停留更久。第二，基础设施失败具有爆炸半径。PR 中写错的函数大概率会被测试拦截，但写错的 Helm chart 部署到生产会引发报警、客户道歉甚至惊动董事会。大爆炸半径系统天然需要人类监督。Gartner 2025 年调研显示，仅 15% 的 IT 负责人考虑完全自主 Agent，拦路虎是“治理、成熟度、Agent 泛滥”。Agent 接管越多“打字”环节，人类价值越集中到“最不能出错”的决策——这些决策几乎总是基础设施决策：部署什么、在哪部署、如何保证、如何回滚。这种工作不会被自动化，只会更集中到少数高杠杆人员手中。第三，基础设施是“胶水层”，是上下文的归宿。能跑的生产系统是网络、身份、数据、密钥、合规、成本、延迟的交集。任何一层都无法独立存在——这正是我们 2022 年在《软件项目复杂性》中描述的不可化约复杂性。能一次性装下所有这些的能力，即“架构师的底层功夫”，Agent 无法从训练集中习得。Agent 能生成像样的 Terraform，却不知道贵司合规团队刚拒绝过某种 VPC peering 结构。这也是为何企业级 AI 应用仅靠模型不够，还需架构判断。

真正改变的，是基础设施技能的呈现方式。衡量标准不再是“能否熟练敲击 kubectl”，而是“能否设计出让 Agent 安全运行的操作面”。2026 年的 SRE 将撰写更少的 runbook，更多的策略、契约、护栏；更少 kubectl rollout，更多准入控制器和 OPA 规则；更少人工分诊，更多带审批闸的自动修复。技能沿技术栈上移——从运维至架构——并未消失，反而杠杆更大。

历史在此回响。云并未消灭系统管理员，而是将其重塑为 SRE，且 SRE 价值更高。AI 亦不会消灭 SRE，而是将其重塑为 Agent 平台工程师，身价倍增。市场已为此定价：2025 年 DevOps 岗位报告显示，中位薪资 17.75 万美元，平台工程随组织规模扩大溢价明显。技术跃迁压缩了上一代手工劳动，同时抬高了“装备齐全工程师的交付上限”。

若上述论证成立，职业建议将相当具体且不讨喜。“学 Prompt”非答案，“用 AI 写代码更快”亦非答案。答案在于：刻意投资那些让你成为“从 Agent diff 到用户屏幕”这一路径所有者的技能。

Gartner 预测 2026 年底 40% 企业将集成任务型 AI Agent，而 2025 年不足 5%——12 个月内 Agent 操作面扩大 8 倍。同时，77% 的工程负责人认为“应用集成 AI”是重大挑战。承接此曲线者，多为会说“基础设施语言”的人。

按“复利”排序，短名单如下：

你会发现清单里没什么：没有“再学一个框架”、“再学一门语言”、“再学一个 IDE”。非因不重要，而是半衰期在缩短，而上述六条仍在复利。一条 2020 年的 Kubernetes 心得，2026 年仍可用；一条 2024 年的 Prompt 技巧，如今已基本过期。

💡 给团队> 若正问“如何实现 AI 原生？”——错误第一步是买模型或招 Prompt 工程师。正确第一步是审计交付底座。Agent 能否开 PR？能否触发 CI？能否获取预览环境？能否安全读取生产指标？能否不惊动人类回滚？任何一项答“不行”，Agent 战略即止步于此。先修底座。DORA 2025 报告核心结论——“AI 是放大器：让强团队更强，让弱团队更乱”——本质是关于“底座质量”的判断。

2026 年保守预测：模型更大，芯片更快，Agent 更聪明。预测虽对，但钱不在此。钱在技术栈最不性感的一层——流水线、集群、策略、仪表盘——因正是这一层将模型能力转化为交付产品。无 Infra 的智能是 Demo，加 Infra 才是生意。

再次重申“激进观点”：编程已商品化，Infra 未变。AI 学会 Python 未让 DevOps 变无关，反而将其抬升为自主软件交付底座。过去为避凌晨三点叫醒而搭的流水线，今让一工程师交付过去一团队量；过去为“讨厌点云控制台”人类准备的声明式 API，如今是点不了鼠标的 Agent 唯一操作面；过去为解释昨日故障建的可观测性栈，如今是让明日 Agent 诚实的反馈回路。

2025 年所有关键数字，皆指向同一结论。95% 生成式 AI 试点无法上生产。90% 高绩效团队跑着内部平台。82% 容器负载跑在 Kubernetes 上。仅 15% 企业觉准备好迎接自主 Agent。这些数字描述的根本非“智能不够”，而是“管道不通”——管道即 Infra。

这些内容做不成漂亮开场幻灯片，也不会在 X 上刷屏。但它会安静地决定：谁将 2026 年模型能力转化为 2027 年已上线产品，谁仍对聊框打 Prompt，困惑为何东西永不上生产。

AI 的最后一公里，非更聪明的模型，而是更好的那条流水线。

📝 本文同步发布于个人技术博客

🔗 完整文章链接： https://marvinzhang.dev/zh/blog/ai-last-mile-infrastructure

💬 欢迎访问我的博客了解更多技术文章！

← 上一篇：国足若引入AI大模型，能否复制新能源的弯道超车奇迹？下一篇：AI夏令营招募：致极学院联手超脑AI，助孩子变身未来创变者 →