标签

AI for Science 何时迎来爆发?年轻人如何布局?

发布时间:2026-05-06 12:28来源:微信阅读:6

编者按

随着AI正在重塑科研与产业的底层逻辑,AI for Science早已脱离了纸面概念。4月28日,未来光锥联合北京中关村学院AI商学院,共同推出「AI for Science 创变者说:学界 × 产业先锋对话系列沙龙」。首期活动邀请了3位一线嘉宾。北京中关村学院副教授、中关村学院AI商学院联席院长郑书新,用详实的数据和一线洞察,回应了三个公众关切的问题:AI4S的“ChatGPT时刻”会到来吗?创业者的护城河是什么?年轻人该往哪走?

大模型的本质:压缩产生智能

大模型的通用智能性究竟源自何处?OpenAI前首席科学家Ilya一语道破:压缩产生智能——模型的智慧,源于它利用相对较少的参数量,压缩了人类语言产生的海量数据。在此过程中,模型被迫提炼数据中的共性结构与内在表征,智能由此涌现。

举例来说,GPT-3首个版本175B(约1750亿)参数,旨在容纳全人类书写过的几乎全部文本。若仅靠记忆,它本质上就是个硬盘,硬盘无法产生智能。但当我们要求它用越来越少的参数和体积“记住”这些数据时,它被迫提炼共性结构与内在表征——智能正是在这种压缩过程中产生的。

这背后还有一个更严谨的理论支撑,即Kolmogorov复杂度——一段数据的复杂度可用描述它的最短程序长度来衡量。例如,全是0的数据可用一行Python压缩,因其内在结构极简。大语言模型“预测下一个词”的范式,其实就是对Kolmogorov程序的良好近似。

但这也注定了其上限:人类已知。跟人学习,终究无法超越人类。而AI for Science,走的是截然不同的道路。

AI4S的两条核心路径

AI4S不涉及人类语言,它直接探究物理规律、生物过程、分子构型,压缩的是自然界本身的数据,而非“人类如何描述自然界”。

最具代表性的是AlphaFold——这是诺贝尔奖级别的工作。它在做什么?也很简单:在自然界数据中寻找相关性。当PDB(蛋白质数据库)积累了数十万条蛋白结构数据时,模型便能从中发现从序列到三维结构的映射,将蛋白结构问题“求解”出来。

这里有一个核心分析框架,AI4S的两条腿:

- Scientist(科学家):读文献、提假设、设计实验,本质是语言智能+知识整合+逻辑推理。强项是推理与知识,短板是对物理世界没有“直接理解”。代表是OpenAI、Anthropic、DeepMind等前沿实验室的科研模型。

- Simulator(模拟器):用AI数据驱动拟合物理世界规律,强项是对世界本身建模,非堆参数可成,短板是无显式知识链条与推理能力。代表是AlphaFold、各类气象大模型。

大模型的终点是AGI,而AI4S的广阔天地,是突破人类认知边界——宇宙是未知的,只有Simulator这条路,理论上能让AI探索人类尚未发现的事物。

但今日Simulator自身无法解决所有问题——它缺乏逻辑、缺乏推理。单靠任何一条路都走不通。真正的AI4S终局,是两条路径的融合:既能像顶尖科学家那样推理、提假设,又能直接理解物理世界本身。

这也是我反复强调的:AI for Science,不止需要更大的模型。你把GPT再放大100倍,它也不会自动懂得蛋白质如何折叠、一团云如何演变。

当下没有任何一个团队同时拥有这两端,这恰恰是机会所在。

AI4S不会有统一的“ChatGPT时刻”

我的核心判断是:AI4S会有持续突破,但不会是全民狂欢的统一瞬间,其进展更似一张高度不均匀的地图。

一个领域,满足「问题结构清晰+数据充足+验证闭环短」这三个要素越多,AI4S在那里的进展就越快。

- 蛋白折叠:蛋白这一仗,有趣之处在于:Scientist和Simulator两条路都拿出了标志性成果。AlphaFold回答“蛋白长什么样”,DiG和BioEmu回答“蛋白如何运动”,一个是拍照片,一个是拍电影。把电影拍出来,蛋白质的功能机理才真正可解释。

- AI药物:已越过临界点。AI药物临床管线超200条,I期成功率80%-90%,是传统方法的2倍;首个AI药物已在II期临床显示疗效,2026-2027年将迎来关键管线的数据验证窗口期。

- AI气象:中国选手全球领先。华为盘古、复旦伏羲、风乌模型持续突破,其中风乌做到11.25天准确预报,全球首次突破10天精度壁垒。

- 材料科学:材料是另一种状态:刚从“筛选已知化合物”进化到“从头设计前所未有分子”。2025-2026年最核心的信号,是一线做模型的人,开始真正相信自己手中的工具。该领域虽处早期,元素组合空间近乎无限,但一旦突破,价值也最大。

大模型巨头全员入局,创业者的壁垒到底在哪?

一个不争的事实是:OpenAI、Anthropic、Google DeepMind、微软、NVIDIA、Meta,六大AI巨头,已全员下场AI4S。

连OpenAI都要单独研发生命科学专项模型GPT-Rosalind,Anthropic全力布局Claude for Life Sciences,这已说明:“一个通用模型解决一切”的叙事,正被这些公司悄然放弃。

巨头入局后,创业者的壁垒在哪?我的答案很明确:门槛不在prompt和workflow,而在科学能力、数据闭环、行业嵌入深度。

这里一定要先想清楚,你打的是哪一局:

- 产品型:拼快速迭代、用户粘性,验证周期天到周,代表是Manus、Cursor;

- 资源型:拼行业嵌入深度、客户资源,验证周期季度到年,代表是传统SaaS、行业解决方案;

- 科学故事型:拼科学能力+数据飞轮,代表是Isomorphic Labs,验证周期年到十年。

AI4S公司其实可分两类:科学公司(科学故事型)和科学服务公司(资源型)。两条路都能走,但最怕的是,把自己当成“科学公司”,最后做成了“科学服务公司”。

若对自己的技术足够自信,真能挖到金子,就理应去讲科学故事;若还差些火候,就要重交付、重客户资源,老老实实深耕行业。

现在就是AI4S的黄金窗口期

为何我说现在是窗口期?因为资金已动。单家AI4S企业年融资额可达5.5亿美元,全球VC流向AI的资金中,大量资金正向AI4S倾斜。美国能源部投入3.2亿美元启动Genesis计划,中国也在跟进。

资金为何集中冲向AI4S?因技术临界突破+传统研发效率太低+数据基建刚起步+国家战略加持,四重共振已形成。

即便过程中有泡沫破裂,也和五六年前行业热潮完全不同——这一次,技术真的到了临界点。

未来最值得长期关注的两个趋势:

1. 自驱动实验室:实现“假设→实验→数据→模型更新→新假设”的完整闭环,实验越多模型越好,实验越聪明形成真正飞轮,代表玩家有Lila Sciences、Recursion、Atinary。

2. 国家级AI4S基础设施:AI4S正从“学术研究”走向“产业基础设施”,这是国家竞争力的核心布局。

给年轻人的5条硬核建议

选领域比选技术重要。真正的护城河是领域知识,非模型架构,选一个你愿沉浸5年的科学问题。

学会与实验对话。纯计算背景者,最大短板是不懂实验。去实验室待三个月,比多读十篇论文有用。

数据能力是核心杠杆。模型性能上限,终究是训练数据的信息上限。能搭起数据飞轮的人,远比会调模型的人有价值,会获取、清洗、标注科学数据,是硬通货。

想清楚你打什么局。科学故事局需长期耐心,资源局需行业嵌入,产品局拼快迭代,别混着打。

现在就是窗口期。技术、资本、国家战略三重共振,但窗口不会永远开着。

三个核心结论

回到开场的三个问题,答案已非常清晰:

AI4S的突破已在发生,但不会有统一的“ChatGPT时刻”,各领域进展高度不均,突破速度取决于问题结构、数据基础与验证闭环;

2. 创业者的核心壁垒,是“科学能力+数据闭环”,从来不是模型大小;

3. 选对方向,本质是选一个你愿深耕五年的科学问题。

最后送给大家一句话——窗口属于愿意做重活、敢在不确定性里下注的人。

作者简介

郑书新,北京中关村学院副教授,中关村学院AI商学院联席院长,《AI for Science》期刊副主编。前微软研究院首席研究员,微软科学基础模型负责人,多项人工智能世界冠军,训练了迄今最大的科学大模型。

未来光锥

部分已投项目

华天航空动力

极映科技丨中科科乐

闪极科技丨星联未来

中农种源丨博雅聚力

微灵医疗丨逸芯生命

谱睿源丨天璇新材料

……

关注话题

消费上游新材料丨AI for Science

……

闭门活动

生物科技丨农业育种

合成生物学丨碳中和

能源材料丨生物基材料

AI for Science

……