AI独立研究超越人类?别急着下结论
华子上网 | 快评
AI独立开展科学研究,竟然超越了人类的表现。
没错,你没看错。
Prime Intellect 让 Claude Code 和 Codex 在 nanoGPT 优化赛道上实现完全自主运行——全程无人类介入、无人工干预,两个智能体自行开展实验、调整参数、探索优化路径——最终 Claude Code 达到 2930 步,超越了 2990 步的人类基准。
等一下,读一遍这句话。
AI 的研究成果,超越了人类设定的 benchmark。
但事情没这么简单。
如果你只看标题,你会以为 AI 已经成为科学家了,可以收拾东西回家了。
冷静一下。
智能体在这件事上确实厉害——约 1.4 万 H200 小时的算力投入,系统性地遍历了社区主流的优化方法,执行超参数扫描,尝试各种策略组合。在"系统整合已知最佳方法"这件事上,AI 的效率是人类的 10 倍、甚至 100 倍。
这什么概念?
就像刚入职的新人,把过去十年所有论文的最佳实践全部翻出来,排列组合做了大量实验,最终找到一套最优配置,超过了老教授手动调整的结果。是天才吗?是的。但这是另一种天才。
真正的考验在后面。
项目有一关叫"新颖性检查"。
意思就是——别光抄作业,你倒是想点新东西出来。
结果呢?
智能体全军覆没。没有一个能在真正创新的环节上突破基线。
它能做最好的学生,但你让它当老师,它不会。
很多人看到这个新闻会慌。
会有人说"完了,程序员要失业了"——连搞研究的 AI 都出来了,写代码的算什么?
我反而觉得,这是一个好消息。
如果 AI 真正突破的是"组合优化"和"系统整合"这条线,那它解放的是什么呢?是科学家和技术人员从无聊的超参数调参中解脱出来。它把最枯燥、最重复、最像体力活的环节抢走了。
把创新留给了人。
我说两句不好听的。
现在的问题不是 AI 能不能搞科研。
问题是,人类搞科研的流程还在用上个世纪的模式——一篇论文从实验到发表要半年,审稿再半年,代码可复现性是最低优先级。AI 社区虽然在开源上领先,但整个学术体系的运转速度已经被 AI 远远甩在后面了。
你想想,AI 一天能跑一万次实验。
人类审稿人一个月看一篇论文。
这种速度差,到底谁拖谁的后腿?
最后说一句。
AI 还没学会"灵光一闪",
但它已经学会了把所有已知的方法试个遍。
这还不够可怕吗?