AI编程为何难筑护城河
2023年初,笔者在首篇关于人工通用智能的文章中提出:
代码使用计算机语言,是设计完善的特殊语种,结构性强,长程关联,关系明确。
可以用微语言结构的概率分布为基底,张成语言空间,程序就是该语言结构空间的点线面体。
GPT可以用自己构建的高维语言空间简单方便地学习代码。
代码其实也可以看成特殊的思维链,训练可以降低信息熵,让信息更可预测。
大量这种语言结构示例参与预训练的话,GPT被注入足够的信息量,形成各种复杂关联的模式, 涵盖代码中的知识和知识结构。
高质量的代码,可以显著地降低GPT 获取的信息熵,这也是为什么GPT在代码上比自然语言更让人惊艳。
过去三年Claude Code等众多代码大模型的演化,几乎都印证了这个判断。
GLM5.2接近Claude Opus4.8,豆包2.1持平Opus4.7,是最新进展。
很多人认为编程是逻辑问题,但从大模型原理看,编程首先是语言问题,而且是最容易学习的语言问题之一。
人类语言天然充满歧义,一句话往往对应多种解释,同一个词在不同场景下可能完全不同。
而代码是一种被工程师长期优化过的人工语言,具备几个独特的性质:语法严格、语义确定、长程依赖明确、可组合、可验证。
对于Transformer来说,这几乎就是理想训练语料。从信息论看,自然语言属于高熵系统,代码属于低熵系统;
从信息几何看,自然语言形成的是高度弯曲、充满歧义的语义流形,代码形成的是边界清晰、拓扑稳定的结构流形。
模型学习代码,是在学习一个约束极强的概率空间,而学习自然语言则是在理解复杂的人类社会。
GPT3就已经具备不错的代码补全能力,GPT4开始能够完成完整软件开发,但后续模型几乎全部快速追平。
代码可能还是最符合 Scaling Law 的数据类型,同时具备如下特质:
代码领域的数据扩张速度远快于互联网文本,大模型越强,代码训练集增长越快,是一个天然正反馈系统。
所以Coding能力的构建与收敛速度远快于知识推理、世界模型、科学发现等其他领域。
之前的软件工程存在巨大经验壁垒。资深工程师重要价值是熟知哪些坑不能踩,比的不是谁代码写得快。
过去几十年,GitHub记录代码,Stack Overflow记录问题,博客记录经验,Issue记录失败案例,
这些原本分散在无数工程师头脑里的经验、隐性知识,被持续数字化。
大模型正在完成最后一步,经验蒸馏,大量工程经验开始从人脑迁移到参数。
很多开发任务正变成标准模式匹配:增删改查、API开发、前端页面、脚本自动化、数据流水线等等。
这些任务原本依赖开发者经验积累,现在越来越依赖提示词,经验壁垒正在快速下降。
商业上,AI Coding缺少形成壁垒所需的核心资产。历史上几乎所有伟大的科技公司,都掌握某种排他资源:
Google搜索流量,Meta社交网络,Amazon电商生态,Microsoft操作系统。
AI Coding却没有,训练数据是公开的、代码知识也是公开的。用户迁移成本低,开发者又很理性。
Cursor抢跑今天,Claude Code明天领先,后天可能又出现新的Agent框架。
其实写代码从来不是软件系统最贵的部分。
最贵的是,现实世界如何映射为软件,如何建模金融系统、供应链、组织、法规、用户行为等等。
代码只是业务本体(Ontology)的投影。真正困难的是如何定义系统。
过去几十年,开发者的大部分时间都花在理解需求上。AI时代这一规律没有改变,甚至会被强化。
成本下降之后,定义本身的成本反而成为瓶颈。未来最大的壁垒可能属于AI Mapping,怎样把复杂现实映射成可计算世界。
很多人以为AI会减少软件工程需求,历史经验恰恰相反。
每次编程门槛下降,软件数量都会爆炸。汇编 - C - Java - 互联网 - 移动互联网时代都这样,AI时代大概率也如此。
当生成代码趋近免费时,软件、Agent数量、自动化流程都会指数增长,企业内部会出现海量AI生成的系统。
新问题随之而来,谁治理这些系统?谁审计?谁维护?谁来纠错?谁保证安全?如何长期演化?
软件工程的重心应该会迁移,从Coding转向Harness,从构建转向治理,从 Build转向Control。
AI Coding的爆发源于代码本身是一种极度适合大语言模型学习的人工语言。
低熵、结构化、可验证、可组合,这些特征决定了代码能力会成为大模型最早成熟的能力之一,也决定了最容易被复制、被追平。
所以说,AI时代最稀缺的能力是定义问题、理解世界、构建本体、设计目标函数,以及决定哪些事情值得Coding。
Coding对应的是答案空间,未来的护城河,可能存在于问题空间。谁能定义问题,谁就能定义系统,谁能定义系统,谁就能定义未来。
AI Coding之所以没有护城河,是因为代码只是世界模型的一个投影。
从价值链看 World Model → Ontology → Workflow → Code,代码位于最底层。
AI Coding的终局可能是“代码变得像水电一样便宜”。未来最难替代的,是那些能够把模糊现实压缩成清晰目标函数的人。