AI for Science 何时迎来爆发？年轻人如何布局？

发布时间：2026-05-06 12:28阅读：25

编者按

随着AI正在重塑科研与产业的底层逻辑，AI for Science早已脱离了纸面概念。4月28日，未来光锥联合北京中关村学院AI商学院，共同推出「AI for Science 创变者说：学界 × 产业先锋对话系列沙龙」。首期活动邀请了3位一线嘉宾。北京中关村学院副教授、中关村学院AI商学院联席院长郑书新，用详实的数据和一线洞察，回应了三个公众关切的问题：AI4S的“ChatGPT时刻”会到来吗？创业者的护城河是什么？年轻人该往哪走？

大模型的本质：压缩产生智能

大模型的通用智能性究竟源自何处？OpenAI前首席科学家Ilya一语道破：压缩产生智能——模型的智慧，源于它利用相对较少的参数量，压缩了人类语言产生的海量数据。在此过程中，模型被迫提炼数据中的共性结构与内在表征，智能由此涌现。

举例来说，GPT-3首个版本175B（约1750亿）参数，旨在容纳全人类书写过的几乎全部文本。若仅靠记忆，它本质上就是个硬盘，硬盘无法产生智能。但当我们要求它用越来越少的参数和体积“记住”这些数据时，它被迫提炼共性结构与内在表征——智能正是在这种压缩过程中产生的。

这背后还有一个更严谨的理论支撑，即Kolmogorov复杂度——一段数据的复杂度可用描述它的最短程序长度来衡量。例如，全是0的数据可用一行Python压缩，因其内在结构极简。大语言模型“预测下一个词”的范式，其实就是对Kolmogorov程序的良好近似。

但这也注定了其上限：人类已知。跟人学习，终究无法超越人类。而AI for Science，走的是截然不同的道路。

AI4S的两条核心路径

AI4S不涉及人类语言，它直接探究物理规律、生物过程、分子构型，压缩的是自然界本身的数据，而非“人类如何描述自然界”。

最具代表性的是AlphaFold——这是诺贝尔奖级别的工作。它在做什么？也很简单：在自然界数据中寻找相关性。当PDB（蛋白质数据库）积累了数十万条蛋白结构数据时，模型便能从中发现从序列到三维结构的映射，将蛋白结构问题“求解”出来。

这里有一个核心分析框架，AI4S的两条腿：

- Scientist（科学家）：读文献、提假设、设计实验，本质是语言智能+知识整合+逻辑推理。强项是推理与知识，短板是对物理世界没有“直接理解”。代表是OpenAI、Anthropic、DeepMind等前沿实验室的科研模型。

- Simulator（模拟器）：用AI数据驱动拟合物理世界规律，强项是对世界本身建模，非堆参数可成，短板是无显式知识链条与推理能力。代表是AlphaFold、各类气象大模型。

大模型的终点是AGI，而AI4S的广阔天地，是突破人类认知边界——宇宙是未知的，只有Simulator这条路，理论上能让AI探索人类尚未发现的事物。

但今日Simulator自身无法解决所有问题——它缺乏逻辑、缺乏推理。单靠任何一条路都走不通。真正的AI4S终局，是两条路径的融合：既能像顶尖科学家那样推理、提假设，又能直接理解物理世界本身。

这也是我反复强调的：AI for Science，不止需要更大的模型。你把GPT再放大100倍，它也不会自动懂得蛋白质如何折叠、一团云如何演变。

当下没有任何一个团队同时拥有这两端，这恰恰是机会所在。

AI4S不会有统一的“ChatGPT时刻”

我的核心判断是：AI4S会有持续突破，但不会是全民狂欢的统一瞬间，其进展更似一张高度不均匀的地图。

一个领域，满足「问题结构清晰+数据充足+验证闭环短」这三个要素越多，AI4S在那里的进展就越快。

- 蛋白折叠：蛋白这一仗，有趣之处在于：Scientist和Simulator两条路都拿出了标志性成果。AlphaFold回答“蛋白长什么样”，DiG和BioEmu回答“蛋白如何运动”，一个是拍照片，一个是拍电影。把电影拍出来，蛋白质的功能机理才真正可解释。

- AI药物：已越过临界点。AI药物临床管线超200条，I期成功率80%-90%，是传统方法的2倍；首个AI药物已在II期临床显示疗效，2026-2027年将迎来关键管线的数据验证窗口期。

- AI气象：中国选手全球领先。华为盘古、复旦伏羲、风乌模型持续突破，其中风乌做到11.25天准确预报，全球首次突破10天精度壁垒。

- 材料科学：材料是另一种状态：刚从“筛选已知化合物”进化到“从头设计前所未有分子”。2025-2026年最核心的信号，是一线做模型的人，开始真正相信自己手中的工具。该领域虽处早期，元素组合空间近乎无限，但一旦突破，价值也最大。

大模型巨头全员入局，创业者的壁垒到底在哪？

一个不争的事实是：OpenAI、Anthropic、Google DeepMind、微软、NVIDIA、Meta，六大AI巨头，已全员下场AI4S。

连OpenAI都要单独研发生命科学专项模型GPT-Rosalind，Anthropic全力布局Claude for Life Sciences，这已说明：“一个通用模型解决一切”的叙事，正被这些公司悄然放弃。

巨头入局后，创业者的壁垒在哪？我的答案很明确：门槛不在prompt和workflow，而在科学能力、数据闭环、行业嵌入深度。

这里一定要先想清楚，你打的是哪一局：

- 产品型：拼快速迭代、用户粘性，验证周期天到周，代表是Manus、Cursor；

- 资源型：拼行业嵌入深度、客户资源，验证周期季度到年，代表是传统SaaS、行业解决方案；

- 科学故事型：拼科学能力+数据飞轮，代表是Isomorphic Labs，验证周期年到十年。

AI4S公司其实可分两类：科学公司（科学故事型）和科学服务公司（资源型）。两条路都能走，但最怕的是，把自己当成“科学公司”，最后做成了“科学服务公司”。

若对自己的技术足够自信，真能挖到金子，就理应去讲科学故事；若还差些火候，就要重交付、重客户资源，老老实实深耕行业。

现在就是AI4S的黄金窗口期

为何我说现在是窗口期？因为资金已动。单家AI4S企业年融资额可达5.5亿美元，全球VC流向AI的资金中，大量资金正向AI4S倾斜。美国能源部投入3.2亿美元启动Genesis计划，中国也在跟进。

资金为何集中冲向AI4S？因技术临界突破+传统研发效率太低+数据基建刚起步+国家战略加持，四重共振已形成。

即便过程中有泡沫破裂，也和五六年前行业热潮完全不同——这一次，技术真的到了临界点。

未来最值得长期关注的两个趋势：

1. 自驱动实验室：实现“假设→实验→数据→模型更新→新假设”的完整闭环，实验越多模型越好，实验越聪明形成真正飞轮，代表玩家有Lila Sciences、Recursion、Atinary。

2. 国家级AI4S基础设施：AI4S正从“学术研究”走向“产业基础设施”，这是国家竞争力的核心布局。

给年轻人的5条硬核建议

选领域比选技术重要。真正的护城河是领域知识，非模型架构，选一个你愿沉浸5年的科学问题。

学会与实验对话。纯计算背景者，最大短板是不懂实验。去实验室待三个月，比多读十篇论文有用。

数据能力是核心杠杆。模型性能上限，终究是训练数据的信息上限。能搭起数据飞轮的人，远比会调模型的人有价值，会获取、清洗、标注科学数据，是硬通货。

想清楚你打什么局。科学故事局需长期耐心，资源局需行业嵌入，产品局拼快迭代，别混着打。

现在就是窗口期。技术、资本、国家战略三重共振，但窗口不会永远开着。

三个核心结论

回到开场的三个问题，答案已非常清晰：

AI4S的突破已在发生，但不会有统一的“ChatGPT时刻”，各领域进展高度不均，突破速度取决于问题结构、数据基础与验证闭环；

2. 创业者的核心壁垒，是“科学能力+数据闭环”，从来不是模型大小；

3. 选对方向，本质是选一个你愿深耕五年的科学问题。

最后送给大家一句话——窗口属于愿意做重活、敢在不确定性里下注的人。

作者简介

郑书新，北京中关村学院副教授，中关村学院AI商学院联席院长，《AI for Science》期刊副主编。前微软研究院首席研究员，微软科学基础模型负责人，多项人工智能世界冠军，训练了迄今最大的科学大模型。

未来光锥

部分已投项目

华天航空动力

极映科技丨中科科乐

闪极科技丨星联未来

中农种源丨博雅聚力

微灵医疗丨逸芯生命

谱睿源丨天璇新材料

……

关注话题

消费上游新材料丨AI for Science

……

闭门活动

生物科技丨农业育种

合成生物学丨碳中和

能源材料丨生物基材料

AI for Science

……

← 上一篇：AI照片秒变卡通：Cartoonize AI工具详解下一篇：AI时代，少数家长对早教内卷说‘不’ →