AI写代码这么强，为何却0分？

发布时间：2026-05-09 20:16阅读：15

不信你们把这两条放到一起看看，确实挺“魔幻”的：

第一条：OpenAI总裁表示，AI生成代码的表现从20%一路冲到80%。

第二条：Meta上线的测试显示，顶级AI模型在这套评测里全都0分。

一个是80%，一个是0%。

而且这两个数字就出在同一周。

是不是看着就很矛盾？

我第一反应也一样：AI到底行不行？到底发生了什么？

今天咱们就把这事儿讲清楚。

建议你先收藏一下，这篇可能会把你对AI编程的认知重新洗一遍。

先把测试到底在测什么说明白。

Meta联合斯坦福、哈佛做了个新评测，名字叫ProgramBench。

和以往的思路不一样，这次不让AI看源代码，只给两样东西：

然后要求它：让AI在不联网、不能反编译的前提下，从零把那个软件重新写出来。用什么语言、什么架构由它自己选。

这就像：

给你一辆车，你开一圈，然后让你从零造一辆新的出来。不能看图纸，也不能上网查，全靠你自己理解。

难度自然就不低。

总共测了200个项目，生成了24万多个行为测试点，覆盖压缩工具、数据库、编程语言解释器、音视频处理等，都是更贴近真实的软件类型。

在这套任务里，9个顶级模型全部0%通过。

没看错，一个都没及格。

其中Claude Opus 4.7算是表现相对靠前的，平均能过51.2%的测试；但要它做到"完全等价"地重建整个软件，仍然是0%。

翻成大白话就是：AI写一段代码没问题，但要让它单独把一个完整的软件项目做出来，还差得远。

研究团队还拆看了AI生成的代码，发现了几处挺关键的问题：

1、AI容易堆大文件

人类写代码时，一个项目通常十来个文件，结构更清楚、分工也更明确。

AI写出来平均只有3个文件，而且有60%的方案只写到1到3个文件就结束了。

就像做饭，人类会切菜、备料、分步下锅。AI则是把所有东西一股脑全倒进同一个锅里煮。

2、AI不太爱写函数

Claude Opus 4.7输出的函数数量大约只有人类的29%。

GPT-5.4更夸张，只有10%。

这不是它们"偷懒"，而是很多时候它们并没有真正建立起"模块化"的概念，于是想到哪就写到哪，一个函数可能直接几百行。

3、AI有自己的"方言偏好"

即便原项目用的不是Python，仍有36%的情况下AI会选择Python来实现。

你可以把它理解成：让AI翻译一篇英文文章，它却偏要给你换成某种方言风格。

4、还有模型出现“作弊”行为

比如Claude Sonnet 4.6在联网条件下，有36%的任务直接去GitHub克隆现成代码库。

这当然也挺聪明，但可惜——考试不允许作弊。

为什么？

因为我自己的亲身经历，和这个结果几乎一模一样。

上周那篇文章里我说过：我用AI帮闺女做2048小游戏，功能很快就完成了，数字方块也能正常移动，看上去挺完美，对吧？

结果让我意外：AI让它再优化一下界面后，数字方块直接全跑到格子外面。

我花了2小时才把问题一点点修回来。

那AI为什么会犯这种低级错误？

原因很简单：它会"写代码"，但不擅长"做工程"。

写2048的核心逻辑，确实就是一个文件、一两个函数的问题。但要让界面正常显示，背后需要HTML、CSS、JavaScript三者配合，还要考虑布局、定位、响应式等工程细节。

AI没有那种"全局思维"。

它更像是偏科生：某一科能考90分，但综合题基本全挂。

说人话就是：AI擅长写"句子"，却不擅长写"文章"。

你可能会问：曹哥，既然这么废，那这不是坏消息吗？

我想说恰恰相反，这件事说明了：

AI还替代不了真正意义上的程序员。

不是我夸张，也不是站着说话不腰疼。我做了13年开发，从初级一路到架构师，太清楚"写代码"和"做工程"之间的差距在哪。

AI写出来的代码占比确实越来越高，这没错。但它更多是"代码片段"、"单一功能"、"局部实现"。

而真正需要你亲自完成的，是：

这些工程能力，AI现在做不到，短期内也很难做到。

所以对零基础的小白，我的建议是：

别怕。AI不会让你失业，反而能帮你更快迈过"写代码"这道门槛。

你不用先啃完几年编程基础再开始。你可以直接上手，让AI先帮你写，让你学怎么把工程做完整。

但有一点必须记住：

AI能帮你写代码，却不能帮你思考。

你理不清楚的事情，AI也理不清楚；你描述不清楚的需求，AI也做不到。

所以这恰好是你需要练的能力：不是单纯写代码，而是思考、拆解问题、把需求说清楚。

写这篇文章的时候，我又想起自己刚学编程时的那个阶段。

当时最大的门槛是什么？是写代码吗？不是。

是你根本不知道该写什么。

现在有了AI，这个门槛被抹平了一大半。AI能帮你生成代码、搭框架、协助调试。

但底层逻辑从没变：

技术是工具，思考才是核心。

所以别被"AI考了0分"吓到，也别被"AI写了80%代码"冲昏头。

把两条新闻放在一起看，才更接近真实：

AI很强大，但离真正"会编程"还有距离。AI有局限，但也足够帮助普通人跨过编程入门门槛。

该学的学、该用的用、该思考的思考。

你觉得AI编程对你来说是更多帮助，还是更多焦虑？

评论区聊聊，我也很想听听大家的真实想法😊

如果今天的内容对你有帮助，顺手点个赞就行，不用客气👍

收藏起来，等这个话题再热一阵，回头再翻出来看看！

就这样，下期见！✌️

← 上一篇：华菱云创AI竞赛落幕，创新应用激发新动能下一篇：企业级AI开启规模化商用新纪元 →