AI 编程下一步：不是模型更强，而是软件工程操作系统

发布时间：2026-05-10 01:19阅读：15

过去一年，AI Coding 领域里最常见的误判之一，是很多人觉得：

«“只要模型不断变强，软件开发就会被完全自动化。”»

可是在我看完 flow-kit 以及《十年老技术开发的 AI Agent 探索之路》之后，我越来越明确：

决定 AI 开发能走多远的，

其实早就不只是模型本身的能力。

更关键的是：

AI 软件工程系统的能力。

于是行业正在从：

Prompt Engineering

切换到：

AI Software Engineering

甚至：

AI Operating System

的阶段。

---

一、AI Coding 正在从“聊天”转向“系统”

以往的 AI Coding 方式，本质上是：

人

↔

AI 对话

↔

代码

主要依赖：

- Prompt 技巧

- 上下文长度

- 模型水平

- Agent 工作流

这种路线在早期确实很爽。

随口就能产出页面。

几分钟搞定一个 Demo。

一个晚上就能交付 MVP。

但很快就会暴露出这些问题：

- AI 开始“忘记”

- 架构逐渐跑偏

- 上下文越来越混乱

- 重复踩同样的坑

- 修改彼此发生污染

- 维护周期拉长后失控

很多人把这些归结为“模型不够强”。

然而真正的原因：

属于软件工程层面。

不是模型本身的问题。

---

二、真正的卡点，其实是“人”

《十年老技术开发的 AI Agent 探索之路》中有一个很贴近现实的片段：

作者同时开着：

- Claude

- Codex

- Gemini

- Cursor

在多个终端上并行推进开发。

看起来很先进。

但最终发现的是：

- 不知道哪个 Agent 改了哪个分支

- 某个终端卡了十分钟还没察觉

- 文档状态和代码状态对不上

- AI 之间无法共享同一套上下文

于是作者意识到：人脑的并发上限，大致就在 4-6 个 Agent。

再往上就会逐步崩掉。

由此作者得出一个很重要的判断：

«AI 的价值不是取代人，

而是让系统不再依赖人的实时在场。»

这句话非常关键。

它意味着：

AI 开发真正面对的难题，

不再是“怎么生成代码”。

而是：

“怎样让 AI 长期稳定运转。”

---

三、80% 的 AI 诉求，其实不必用 AI

这是我在文章里最认同的一点。

作者指出：

很多所谓“AI 需求”，本质上只是把流程自动化而已。

例如：

- 定时任务

- 健康检查

- 日志分析

- 文件监听

- 数据同步

这些事情：

cron + curl + jq + shell

就足够解决。

因此作者给出一条很经典的决策链：

目标

↓

代码

↓

CLI

↓

Prompt

↓

Agent

能在底层完成的事情，

就绝不往上推。

这是一种很重要的工程认知。

因为当前 AI 圈有个明显的问题：

“过度 Agent 化”。

很多场景其实：

10 行 Bash 就能搞定。

却被硬套成：

- LangChain

- Workflow

- Tool Calling

- Multi-Agent

结果是：

复杂度暴涨，

稳定性变差，

成本也随之翻倍。

本质上：

AI 不应该成为默认答案。

---

四、Vibe Coding 的最大问题：先轻松后变难

这一段同样很真实。

很多人在第一次用 AI Coding 时都会经历：

Day 1：

AI 太强了！

Day 7：

代码开始越写越乱。

Day 14：

渐渐怀疑自己。

Day 15：

不得不重构整个项目。

原因是什么？

因为 Vibe Coding 的本质是：

“用未来的技术债，换取今天的爽感。”

前期往往：

- 不写 spec

- 不做设计

- 缺乏约束

所以 AI 看起来效率极高。

但到后期就会：

- 架构漂移

- 抽象失控

- 重复逻辑堆叠

- 修改相互污染

于是作者最终回到了：

SDD（Spec-Driven Development）

也就是：

spec

→

plan

→

tasks

很多人误以为 SDD 是“写文档”。

但其实不是。

SDD 的价值在于：

“把模糊目标逐步收敛为可执行的状态。”

它让 AI 具备：

- 可追踪

- 可恢复

- 可复盘

- 可治理

---

五、flow-kit 到底在解决什么？

读完之后我突然意识到：

flow-kit 真正强的地方，

并不只是“Prompt 模板”。

而是它在补齐 AI Coding 最大的短板：

- 长期记忆

- 工程治理

- 状态管理

- 架构演进

- 失败恢复

比如：

PROGRESS.md

解决：

AI 忘事

---

LESSONS.md

解决：

重复踩坑

---

CONTEXT / ARCHITECTURE

解决：

架构漂移

---

RULES / Approval

解决：

AI 乱改

---

A-evolve

解决：

长期演化

因此 flow-kit 本质上已经不再是：

AI Coding Tool

而是：

“轻量版 AI 软件工程操作系统”。

---

六、真正重要的不再是模型，而是治理

文章里有句话我印象很深：

«“垃圾的思考 × 强大的模型 = 精美的垃圾。”»

这就是当下 AI Coding 最大的隐患。

很多人一味追逐：

- 最新模型

- 更长上下文

- 更强推理

却忽略了：

- observability

- eval

- runtime

- control plane

- 状态管理

- 权限治理

结果就是：模型越强，

系统越难掌控。

于是作者提出了一个很反直觉的观点：

“脚手架 > 模型。”

原因在于：一个系统拥有：

- 规范

- 留痕

- 调度

- 状态

- 评估

- 治理

即使使用中等模型，

也可能远强于：

顶级模型 + 混乱工作流

---

七、行业真正的变化：从 Prompt 走向 Runtime

现在行业里已经能看到清晰趋势：

- MCP

- A2A

- Responses API

- Agent Runtime

- Multi-Agent Coordination

这些信号表明：

行业关注点正在从：

Prompt Engineering

转向：

“AI Runtime + Protocol + Control Plane”。

未来真正值钱的，未必是：

谁更会写 Prompt。

而是谁更懂：

- Runtime

- 协议

- 状态

- 调度

- 评估

- 多 Agent 协作

- 工程治理

因为 AI 正在从工具进化成系统。

---

八、最终形态：Goal-Driven AI Software Engineering

文章最后给出的一个认知跃迁很关键：

从：

Task-Driven

迈向：

Goal-Driven

差别在于：

以前：

人下达任务

AI 执行

将来：

人设定目标

系统自主推进

这不再是：

“AI 帮你写代码”。

而更像：

“AI 团队”。

未来可能出现：

- Architect Agent

- Backend Agent

- Frontend Agent

- QA Agent

- Security Agent

- DevOps Agent

- Review Agent

并且：

- flow-kit 负责规范

- Runtime 负责调度

- MCP/A2A 负责通信

- Goal-Driven 负责推进

- Human 负责目标与边界

这也正在愈发贴近：

AI 软件工程操作系统。

---

九、最后一句话

过去：

AI 是工具。

现在：

AI 是协作者。

再往后：

AI 会成为长期运行的软件工程系统。

真正决定上限的，

不再只是模型参数。

而是：

- 规范

- Runtime

- 状态

- 治理

- 协议

- Eval

- Observability

- Goal-Driven

或许这才是接下来 3-5 年里，AI 软件工程真正的主线。

← 上一篇：AI驱动的美股狂潮：泡沫警钟敲响下一篇：AI短剧混战：工具林立，出路何在？ →