标签

AI写代码这么强,为何却0分?

发布时间:2026-05-09 20:16来源:微信阅读:6

不信你们把这两条放到一起看看,确实挺“魔幻”的:

第一条:OpenAI总裁表示,AI生成代码的表现从20%一路冲到80%。

第二条:Meta上线的测试显示,顶级AI模型在这套评测里全都0分。

一个是80%,一个是0%。

而且这两个数字就出在同一周。

是不是看着就很矛盾?

我第一反应也一样:AI到底行不行?到底发生了什么?

今天咱们就把这事儿讲清楚。

建议你先收藏一下,这篇可能会把你对AI编程的认知重新洗一遍。

先把测试到底在测什么说明白。

Meta联合斯坦福、哈佛做了个新评测,名字叫ProgramBench。

和以往的思路不一样,这次不让AI看源代码,只给两样东西:

然后要求它:让AI在不联网、不能反编译的前提下,从零把那个软件重新写出来。用什么语言、什么架构由它自己选。

这就像:

给你一辆车,你开一圈,然后让你从零造一辆新的出来。不能看图纸,也不能上网查,全靠你自己理解。

难度自然就不低。

总共测了200个项目,生成了24万多个行为测试点,覆盖压缩工具、数据库、编程语言解释器、音视频处理等,都是更贴近真实的软件类型。

在这套任务里,9个顶级模型全部0%通过。

没看错,一个都没及格。

其中Claude Opus 4.7算是表现相对靠前的,平均能过51.2%的测试;但要它做到"完全等价"地重建整个软件,仍然是0%。

翻成大白话就是:AI写一段代码没问题,但要让它单独把一个完整的软件项目做出来,还差得远。

研究团队还拆看了AI生成的代码,发现了几处挺关键的问题:

1、AI容易堆大文件

人类写代码时,一个项目通常十来个文件,结构更清楚、分工也更明确。

AI写出来平均只有3个文件,而且有60%的方案只写到1到3个文件就结束了。

就像做饭,人类会切菜、备料、分步下锅。AI则是把所有东西一股脑全倒进同一个锅里煮。

2、AI不太爱写函数

Claude Opus 4.7输出的函数数量大约只有人类的29%。

GPT-5.4更夸张,只有10%。

这不是它们"偷懒",而是很多时候它们并没有真正建立起"模块化"的概念,于是想到哪就写到哪,一个函数可能直接几百行。

3、AI有自己的"方言偏好"

即便原项目用的不是Python,仍有36%的情况下AI会选择Python来实现。

你可以把它理解成:让AI翻译一篇英文文章,它却偏要给你换成某种方言风格。

4、还有模型出现“作弊”行为

比如Claude Sonnet 4.6在联网条件下,有36%的任务直接去GitHub克隆现成代码库。

这当然也挺聪明,但可惜——考试不允许作弊。

为什么?

因为我自己的亲身经历,和这个结果几乎一模一样。

上周那篇文章里我说过:我用AI帮闺女做2048小游戏,功能很快就完成了,数字方块也能正常移动,看上去挺完美,对吧?

结果让我意外:AI让它再优化一下界面后,数字方块直接全跑到格子外面。

我花了2小时才把问题一点点修回来。

那AI为什么会犯这种低级错误?

原因很简单:它会"写代码",但不擅长"做工程"。

写2048的核心逻辑,确实就是一个文件、一两个函数的问题。但要让界面正常显示,背后需要HTML、CSS、JavaScript三者配合,还要考虑布局、定位、响应式等工程细节。

AI没有那种"全局思维"。

它更像是偏科生:某一科能考90分,但综合题基本全挂。

说人话就是:AI擅长写"句子",却不擅长写"文章"。

你可能会问:曹哥,既然这么废,那这不是坏消息吗?

我想说恰恰相反,这件事说明了:

AI还替代不了真正意义上的程序员。

不是我夸张,也不是站着说话不腰疼。我做了13年开发,从初级一路到架构师,太清楚"写代码"和"做工程"之间的差距在哪。

AI写出来的代码占比确实越来越高,这没错。但它更多是"代码片段"、"单一功能"、"局部实现"。

而真正需要你亲自完成的,是:

这些工程能力,AI现在做不到,短期内也很难做到。

所以对零基础的小白,我的建议是:

别怕。AI不会让你失业,反而能帮你更快迈过"写代码"这道门槛。

你不用先啃完几年编程基础再开始。你可以直接上手,让AI先帮你写,让你学怎么把工程做完整。

但有一点必须记住:

AI能帮你写代码,却不能帮你思考。

你理不清楚的事情,AI也理不清楚;你描述不清楚的需求,AI也做不到。

所以这恰好是你需要练的能力:不是单纯写代码,而是思考、拆解问题、把需求说清楚。

写这篇文章的时候,我又想起自己刚学编程时的那个阶段。

当时最大的门槛是什么?是写代码吗?不是。

是你根本不知道该写什么。

现在有了AI,这个门槛被抹平了一大半。AI能帮你生成代码、搭框架、协助调试。

但底层逻辑从没变:

技术是工具,思考才是核心。

所以别被"AI考了0分"吓到,也别被"AI写了80%代码"冲昏头。

把两条新闻放在一起看,才更接近真实:

AI很强大,但离真正"会编程"还有距离。AI有局限,但也足够帮助普通人跨过编程入门门槛。

该学的学、该用的用、该思考的思考。

你觉得AI编程对你来说是更多帮助,还是更多焦虑?

评论区聊聊,我也很想听听大家的真实想法😊

如果今天的内容对你有帮助,顺手点个赞就行,不用客气👍

收藏起来,等这个话题再热一阵,回头再翻出来看看!

就这样,下期见!✌️