标签

智源大会八大亮点:世界模型成为年度最受关注技术方向

发布时间:2026-06-13 00:41阅读:3

2026年,AI圈什么最热?

答案里一定少不了世界模型。

当AI学会了「思考」物理规律,并长出能自主行动的「手脚」,它终于不再只是「纸上谈兵」,而是开始真正理解世界,并展开行动。

今明两天,被视为「AI春晚」的智源大会,正在北京中关村上演。端上来最硬的一盘菜,正是世界模型。

两个世界模型亮相,另有多款模型迎来重大升级,覆盖四个应用场景的Agent矩阵,打算解决真实世界的实际问题。

会议规格依旧拉满。

北京智源大会是智源研究院主办的「AI内行学术盛会」,以「技术前沿、国际视野、青年人才」为特色,汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。

本届大会,现代数字安全体系奠基者Whitfield Diffie线下参会,聚焦Agent时代的安全与可信挑战;强化学习奠基人Andrew Barto追问「交互驱动智能」对于下一代AI系统的意义。

30余位30岁以下青年科学家,40余位AI企业CEO、创始人与首席科学家,200余位顶尖专家学者齐聚北京,中国AI产业世界模型与Agent领域最具代表性的创新力量首次集中同台。

20余家全球顶尖科技企业及高校科研机构,包括Meta、英伟达、哈佛、MIT等,将与阿里、腾讯、小米、生数科技、面壁智能、清华、北大、人大等中国AI行业最核心的创新力量同场交流。

同时,大会还汇聚数百位全球AI领域学术中坚力量,一同围绕世界模型、通用智能体、具身智能、AI安全、AI Native教育、Token经济与OPC、智能计算底层架构等前沿方向展开精彩演讲和前瞻性对话。

最聪明的一群脑袋凑到了一起,讨论的都是AI最前沿的话题,信息量大到爆炸。

开幕式上,智源研究院院长王仲远做2026年智源进展报告,发布智源研究院在基座大模型、智能体、基础软硬件生态等前沿技术领域的探索成果和开源生态建设的最新动态。

自2018年成立以来,智源研究院先后发布了「悟道」系列大模型和「悟界」系列大模型,构建了自底向上的全栈大模型开源技术体系。

无论是在大模型发展的早期,还是在物理AI的全新时期,智源研究院始终在引领人工智能大模型的前沿研究探索。

截至目前,智源开源模型超200个,全球总下载量累计超过10亿次,同时也孵化了一系列在大模型领域和具身智能领域非常具有代表性的创新创业企业。

2024年智源大会上,智源发布了对于人工智能尤其是大模型技术的演化路径的预判。当下,人工智能正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。

过去一年里,智源在基座大模型、智能体以及基础软硬件生态三个领域取得令人瞩目的科研进展。基于智源在多模态大模型以及世界大模型上的探索,智源研究院系统性地梳理了世界模型发展历程,以及对现有世界模型技术的四大分类,并介绍了正在研发中的悟界·Physis。

世界模型,是本次大会最大的亮点之一。

全球首个通用世界基座模型悟界·Physis-v0.1,它给AI装了一套「物理引擎」。

当前大语言模型对现实世界的理解,本质上来自海量语言数据中的经验归纳,而不是对物理过程的真实模拟。

比如,大语言模型可能知道「推一下桌边的杯子,大概率会掉下来」,但并不意味着它明白重力、受力、惯性和空间关系是怎么回事。

而悟界·Physis-v0.1最核心的,就是让AI像物理引擎一样思考,给它一个动作,它来预测这个动作在真实世界里会产生什么后果。

悟界·Physis-v0.1构筑了真实物理世界人工智能底层核心引擎,重塑AI物理感知与推演的底层技术体系。

悟界·Physis-v0.1彻底打破传统AI垂类场景专用的技术瓶颈,针对性解决行业共性难题,能有效弥补主流人工智能模型不懂真实物理规则、物理推演结果可信度低、长程时序记忆缺失的核心短板,以通用基座能力实现全场景物理交互、感知与决策的统一,从根源提升AI物理推理的真实性与可靠性。

依托独创技术架构构建行业领先壁垒,悟界·Physis-v0.1以物理隐空间表征替代传统像素、帧级预测方案,实现跨场景通用物理规律强化学习。

搭载专属物理状态编码器,它可完成视频、深度RGB、3D点云、力触反馈等全模态信息压缩,统一转化为标准化隐空间物理状态 Latent State。

模型支持50+复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心能力,凭借高效的推理效率与极强的泛化能力,达到行业领先水平,可广泛应用于严肃工业、具身智能、物理仿真、科学研究等真实物理场景。

王仲远说,悟界·Physis的诞生正是基于智源对人工智能发展路径的判断以及从「悟道」到「悟界」的技术传承与延续。随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。

再来说悟界·RoboBrain Orca,它是以下一个物理状态预测为核心的具身大脑,构建 「统一表征 — 建模 — 预测 — 交互」完整闭环,实现从 Next Token / Frame / Action Prediction 升级为 Next Physical State Prediction,彻底打破传统AI仅能理解文本的局限,推动 AI 从理解文本走向感知、预测与交互物理世界,并融合大量Ego-centric交互数据,强化了世界模型的具身表征,有效提升下游少样本与跨场景的泛化能力。

悟界·RoboBrain Orca具备统一表征、因果推演、模态解码三大核心能力,可同时生成语言思考、视觉预测与动作决策,实现「想、看、动」三位一体,赋予具身智能机器人打通「认知—预测—行动」完整链路的能力,支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。

比如命令「把桌上的可乐递给客人」,它能同时完成:

语言推理——「客人渴了,先确认哪瓶是可乐」

视觉预测——「可乐在桌子右边,中间有个花瓶要绕开」

动作决策——「机械臂的抓取路径怎么规划」

在王仲远看来,随着多模态模型的研究深入,人工智能正经历一场重大的范式变革,正在从「预测下一个词元」演进到「预测下一个物理状态」,这是世界模型的核心本质。

而智源研究院是国内最早提出并开展世界模型研究的科研机构。

2023年智源大会上,杨立昆(Yann LeCun)就阐述了新一代世界模型的概念;2024年智源大会上,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术。

2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5,更是全球首个原生多模态世界模型,创造了国产多模态大模型的众多纪录。

悟界·Emu是智源从「悟道」迈向「悟界」的标志性里程碑。悟界·Emu3于2026年1月登上Nature正刊,这是中国科研机构主导的大模型成果首次在Nature正刊发表,含金量不用多说了。

在此基础上,Emu3.5完成关键升级,从「预测下一个词元」进一步扩展到跨视觉与语言序列的「下一状态预测」,以纯自回归框架原生实现文本、图像、视频的统一理解与生成,打破传统多模态技术路线的模态孤岛与架构割裂。

它内置时空关系、因果逻辑与物理世界演化规律建模能力,不仅攻克了生成内容违背真实世界物理规则的行业痛点,更补齐了AI从数字世界走向物理世界的技术缺失,兼具顶级学术价值与底层产业支撑价值。

世界模型很火,但也很「乱」,它的定义还没有统一,技术也尚未收敛。

智源认为,当前的世界模型可分为四类:

以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,并不能理解背后的物理后果;

以像素为中心的世界模型,包括Sora、Seedance等视频生成模型,这也是当前被误用最广的方向;

以三维结构为中心的世界模型,例如李飞飞团队的World Labs Marble,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;

以视觉表征为中心的世界模型,例如Yann LeCun的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

在智源看来,真正的世界模型,不仅能感知、理解、推理真实的物理状态和物理常识,还涵盖文本、视频、深度、力觉、感知等全模态数据,更具备主动交互能力,能够支撑各种物理世界的下游应用。

此外,智源还有如下重要的创新成果值得关注:

悟界·Brainμ1.0是全球首个理解与生成统一的多模态神经科学大模型,旨在从世界模型出发,构建多模态脑科学通用基座。

该模型可将人类、猕猴、小鼠跨物种,EEG、fMRI、MEG、fNIRS、神经像素、钙成像等全模态脑信号,统一编码为标准Token,实现数据格式归一,并通过多模态对齐,将脑信号Token与语言、图像、视频等通用模态对齐,嵌入预训练大模型,充分释放大模型知识表达与泛化能力。

此外,全球最大的AI-Ready神经科学数据平台悟界·BrainToken,汇聚全球开源神经科学数据并完成全量Token化总量突破万亿级别。Brainμ1.0可利用数据Token化,解决神经科学领域数据孤岛(复杂、稀疏、不对齐等)问题,降低神经疾病诊断成本,辅助筛查诊断阿尔兹海默症、抑郁症、帕金森等疾病。

目前,悟界·Brainμ已用于AI辅助科学家分析数据,支撑「记忆-睡眠」调控机制研究成果登刊Science。

悟界·OpenComplex2.5是下一代AI驱动药物发现模型,重点解决固有无序蛋白(IDP)动态构象难以解析的问题。

它通过可泛化、物理真实的端到端全原子分布建模,精准捕捉IDP灵活、多变的构象状态,突破传统静态结构分析在高动态靶点研究中的局限,为神经退行性疾病等难成药靶点研究提供新的技术路径。

模型统一覆盖药物研发中的四个关键步骤:口袋识别、反向筛选、结构预测和亲和力预测。

在口袋识别环节,在靶点蛋白中定位可成药口袋,实现高质量的口袋检测、对多样化靶点具有鲁棒性、提升命中发现效率;

在反向筛选环节,为给定化合物寻找潜在靶点,实现基于大规模靶点库搜索、对精准的靶点排序、加速化合物再利用和脱靶评估;

在结构预测环节,预测蛋白-配体复合物的三维结构,实现高精度三维结构预测、捕捉关键相互作用、可靠用于下游分析;

在亲和力预测环节,可准确估算结合亲和力相关指标的相对变化趋势,并可泛化至不同化学空间和靶点类型,支持先导化合物筛选与优化。

除了模型产品,智源大会还一口气发布了四个Agent,适用于不同场景,主打一个「落地」。

BAAI Cardiac Agent是全球首个面向心脏磁共振的辅助诊断智能体,依托安贞医院两千余例心血管患者超3万条影像-文本配对多模态数据,构建一站式「结构分割-功能评估-疾病诊断-智能化报告」智能体,推动优质心血管医疗能力普惠可及。

BAAI Cardiac Agent不仅能显著提升CMR影像的解读效率,同时融合安贞医院心脏专科医师的临床诊疗经验,其Agent-Expert系统复刻专家团队协作式诊疗流程,最终实现心脏疾病诊断精确度达到安贞医院顶尖心血管医生的诊断水平,AUC超0.93。

AREX是面向科学发现的自主研究智能体,致力于推动人工智能从模仿学习向自主学习跨越,让AI学会自我提升。它面向科研过程中创新思路稀缺、设计实现缓慢、实验论证繁琐等痛点,全面降低科研全流程对人类参与的依赖,辅助人类研究,实现自主科学发现。

未来,AREX可服务于文献调研、思路拓展、实验设计、结果论证与论文撰写等科研全流程,也可用于人工智能服务的全流程快速构建、自主优化与迭代,并进一步推动人工智能技术赋能基础学科前沿问题的自主探索与科学发现。

SoulAgent是面向个人用户的专属智能体,采用全新自研架构,实现 Token 成本节省30%,资源占用降低80%。

SoulAgent基于用户画像和skill的自进化,可持续成长为用户的专属数字专家,满足用户个性化服务、长期记忆留存、高私密安全的智能助手核心需求,有效解决传统通用AI助手不懂用户习惯、响应适配慢、用户数据无保障、无法实现长期深度协作的行业痛点,打造专属化和个性化的智能服务体验。

在智源大会上,SoulAgent帮助参会者实时听会、捕捉大会重点、提炼前沿观点与专家洞察,在并行会议中打造随时「在场」的智能分身。

面向有害蛋白获取的风险发现智能体:智源推出面向有害蛋白获取的风险发现智能体,首次打通「计算机模拟推演」与「真实实验验证」的完整链条(干湿实验闭环),验证了先进AI智能体能够辅助绕过生物安全筛查机制,将目标有害蛋白序列拆分为多个DNA片段并组装,最终成功获取有害蛋白基因序列。

针对传统AI生物安全评估多为事后被动响应,且攻击路径难以完整复现的问题,该系统通过主动模拟攻击者行为,提前识别智能体在生物知识获取、有害蛋白序列设计等环节的脆弱性,将风险防控从「事后补救」转为「事前演练」。

这么多模型和Agent要跑起来,更离不开底层算力底座的支撑——众智FlagOS今年升级到了2.1版本,是全球支持芯片种类最多的智算系统软件栈。

众智FlagOS是智源研究院牵头打造的统一智算系统软件栈,致力于彻底破解「多模型×多芯片」的适配难题。

作为当前全球支持芯片种类最多的智算系统软件栈,FlagOS统一适配18家芯片品牌的32款芯片型号,覆盖NVIDIA、NPU、GPGPU、DSA、RISC-V AI、ARM等多种架构,支持「多种模态」「多种场景」大模型在多种AI芯片迁移部署。

通过FlagOS的通用算子库、统一AI编译器、自动算子生成工具、vLLM多芯片统一插件等关键组件,能支持90%以上主流开源大模型的多芯片部署,包括DeepSeek、Qwen、面壁MiniCPM、智谱GLM、MiniMaX、混元、阶跃Step等。

而且,发布即多芯适配,DAY 0即实现DeepSeek V4、Qwen3.6、MiniMaX M2.7、MiniCPM-o4.5、MiniCPM5-1B混元Hy-MT2等大模型的多款芯片适配。

同时,FlagOS作为全球覆盖芯片数量最多的智算系统软件栈,构建了从底层算子到上层框架接入的完整技术体系。

在端到端性能极致优化方面,FlagOS拓展Triton-TLE语言能力,已支持华为昇腾、海光、摩尔线程、清微智能、英伟达等多款芯片,极致优化大模型关键算子性能;八大算子库总数超600个,实现从「大模型专用」到「科学计算」的能力延伸,核心组件已进入PyTorch基金会生态项目;FlagCX 通信库,统一连通10款芯片,并实现全球AI芯片通信的ITU国际标准与国家标准「双立项」。

FlagRelease发布Express「高速」镜像版本,可一键安装使用,实现端到端的高速推理。

FlagCICD,首个AI多芯片开源集成测试发版平台。在前沿探索层面,FlagQuantum,高性能量子电路模拟框架,在多种AI芯片、及量子电路的机器学习,迈出「量智融合」的第一步。

智源开源生态的整体盘子也在持续滚大。截至目前,智源开源模型超200个,全球总下载量超10亿次。

两位图灵奖得主的演讲,值得单独拎出来说一说。

图灵奖得主、美国国家工程院院士、IEEE会士Whitfield Diffie,分享Agent的安全防护和风险抵御的话题。

他提出,当前「控制论(反馈)」式的做法是在程序失败时进行修复,而未来的愿景应是开发形式化方法,以大幅提升程序按预期运行的可靠性。

Diffie对比了密码系统因程序规模极小而可充分研究验证的优势,指出典型的计算机程序——包括编译器、操作系统、应用和智能体——规模要大得多,通常已超出人类的验证能力,人们期望这些任务未来可由AI完成。

他强调,当前编程实践中,对智能体的限制(Confinement)——即保证智能体只能访问授权资源——在现有编程中仍做得不足。

图灵奖得主、马萨诸塞大学阿默斯特分校荣誉退休教授Andrew Barto以Rediscovering Reinforcement Learning(重新发现强化学习)为题进行分享。

他将这一范式的本质归结为「控制、搜索与联想记忆」的三位一体——它既是「带着批评家的学习」,也是「试错学习」,核心在于「缓存搜索结果」而无需持续搜索。

他指出,「机器学习最初就是强化学习」,而「突触可塑性实现了效果律」;Schultz等人的「奖励预测误差假说」则印证,中脑多巴胺神经元的相位性活动所编码的,正是「新旧预期未来奖励之间的误差」。

Barto 强调,「强化学习与神经网络的计算研究从一开始便紧密交织」,二者「均发端于大脑如何运作与学习的假说」,而「深度强化学习的计算能力与大脑奖励系统的最新成果相结合,指明了下一轮进展的方向」。

最后,他以「小心你许的愿——你可能真的会得到它」发出警示,提醒人们警惕奖励信号设计中的「反常实例化」风险。

智源研究院理事长黄铁军与之江实验室主任、阿里云创始人王坚围绕「总有人比时代早十年」展开播客现场对话,由《漫谈 Light the Star》创始人卫诗婕主持。

对话从中国AI范式演进出发,探讨了中国大模型如何从追赶验证走向路线选择、体系构建与范式创新,如何突破互联网文本数据天花板与算力荒的极限状态,以及从「跟随国际主流范式」走向「形成自身问题意识」的原创范式跃迁等议题。

对话还聚焦Agent时代的新范式——从推理时代迈入Agent时代,海量高并发智能体对真实世界产生的直接影响与风险。面对AI 从「客体」向「主体」演进,两位嘉宾也分享了对人与AI 关系、人类文明与AI文明如何共存的长期思考。

在「重构世界——中国大模型巅峰对话」圆桌环节,智源研究院院长王仲远与清华大学计算机系教授、生数科技创始人朱军,小米集团MiMo负责人罗福莉,以及清华大学计算机系教授、面壁智能联合创始人兼首席科学家刘知远,南洋理工大学校长讲席教授、人工智能交叉研究院院长安波等行业领军者,围绕超级模型能力演进、AI自进化、多模态与世界模型等核心议题深入交流,共同探讨了数字世界向物理世界跨越的重构逻辑。

嘉宾们认为,超级模型与智能体系统正进一步释放更大势能,自进化有望成为驱动智能跃迁的新引擎,多模态与世界模型的加速成熟有望推动AI真正从数字空间走向物理世界。在重构世界的进程中,同时应该为青年人才创造更广阔的探索空间。

从2019年第一届到今天,智源大会已经办了八届。

如果把过去几年AI的发展拉成一条时间线,会发现智源大会几乎踩中了每一个关键节点。

首届大会讨论的还是深度学习、基础模型和AI基础设施;大模型浪潮爆发后,预训练、多模态、推理模型逐渐成为主角;再到今天,舞台中央已经变成了世界模型和Agent。

智源大会之所以被视为「AI春晚」,不仅仅是星光璀璨的嘉宾阵容,更因为它是一个精准的风向标,总能指示AI最前沿的发展趋势。

这背后,是智源研究院在国内AI领域独特的定位。

用他们自己的话说,「做高校做不了,企业不愿做的事」。

高校有顶尖人才,但缺工程团队和计算资源;企业有资源,但必须考量商业回报。

智源处在这两者中间——既敢押注「原生多模态」「通用世界模型」这种短期内看不到商业回报的方向,也能用工程化团队,把论文级的想法做到可开源、可部署。