北京智源:中国AI发展的探索者与引领者
在北京,有一家与众不同的新型研发机构——其科研团队的平均年龄仅为30岁,却成功孕育出了中国首批大型语言模型;它不盲目追逐热门领域,却成功孵化了一批备受瞩目的AI公司;它不以论文发表数量作为评价标准,却创造了众多国内乃至全球的“首创”成果。当业界普遍在思考“中国AI将走向何方”时,北京智源人工智能研究院(简称智源研究院)正以其独特的实践,给出自己的答案。
源头创新,破冰前行
今年2月,一条令人振奋的消息引起广泛关注:智源研究院在多模态大模型领域的研究成果,首次被国际顶尖学术期刊《自然》正刊收录。智源研究院究竟是何来头?它的故事要从2018年春季说起。
在一个汇聚了来自产业界、高校及研究机构的顶尖专家的大型会议上,“最强大脑”们就一个核心问题展开了深入探讨:北京在人工智能领域已具备人才、科研及产业方面的显著优势,如何在“紧随其后、应用良好”的基础上,实现更多突破性的研究,并为国际前沿贡献更多引领性的创新成果?
正是在这样的背景下,智源研究院应运而生。“智源”二字,寄寓着“人工智能的源头”之意,正如这家新型研发机构所肩负的使命——从源头引领技术创新。
同样在2018年,北京市出台了《支持建设世界一流新型研发机构实施办法(试行)》。智源研究院院长王仲远深有感触地表示:“自主确定研究方向、自主选聘科研团队、自主支配科研经费、自主推进科技成果转化……‘行政不干预技术’的理念,在当时可谓是极具前瞻性的创举。”
经过严谨的分析和周密的筹备,智源研究院于2020年10月将首个重点攻坚方向锁定为——大模型。来自不同院校和机构的100余名技术人员汇聚一堂,共同向着中文超大预训练模型的“无人区”发起挑战。
成果斐然,一鸣惊人。仅仅5个月后的2021年3月,中国首个超大规模信息智能模型“悟道1.0”问世;三个月后,其迭代版本“悟道2.0”发布,拥有1.75万亿参数,创下了当时全球最大预训练模型的纪录。
“火车向左走,城铁向右走,不动的便是五道口。”不论是清晨还是黄昏,地铁13号线都承载着人流和梦想,飞驰向五道口站。“悟道”之名,凝聚了科学家们独特的浪漫情怀——取自“五道口”的谐音,既是对这片创新沃土的致敬,也寄托着中国人工智能走向更广阔天地的美好愿景。自此,中国大模型时代的大幕正式拉开。
勇闯“无人区”,探索未知
坚持自主创新之路,意味着需要勇于承受压力,砥砺前行。
2024年初,当ChatGPT引发全球热潮,国内众多企业纷纷投身大语言模型研发之际,智源研究院却做出了一项看似“反常规”的决定——暂停大语言模型相关项目,将其交由旗下孵化的企业继续深化发展,转而将研发重心聚焦于多模态和世界模型等下一代大模型的研究。
“我们致力于做高校难以承担、企业不愿涉足的领域。”王仲远道出了这一选择的初衷。那么,何谓“企业不愿涉足的领域”?这通常指的是那些技术路径尚未明朗、充满不确定性、需要长期持续投入的基础研究,也就是前沿技术的“无人区”。
人工智能领域的“无人区”究竟在何处?长期以来,AI系统在学习和处理不同类型的“感官”信息时,往往采取“分而治之”的策略——理解文本需要一套方法,生成图像需要另一套,处理视频则需要不同的专业模型,整个过程复杂且协同工作困难重重。能否从根本上构建一个能够同时理解语言、图像、声音等多种物理规律的统一模型?
这是一条尚未被充分验证的颠覆性技术路线,但在智源团队看来,却是一条值得深入探索的前沿技术路径。同年,智源研究院开始着手布局“原生多模态”大模型的研究。数月后,其成果Emu3发布。
“一言以蔽之,Emu3最核心的优势在于,它采用了一种极其简洁、统一的架构,实现了对文本、图像、视频等多种信息的深度理解和高效生成。”王仲远解释道,这与当时主流方案需要将擅长理解的语言模型与擅长生成的扩散模型等进行“拼装”的做法不同,Emu3仅使用一个模型,遵循一个最基础的学习原则:“预测下一个词元(token)”。这如同为AI量身打造了一套“万能学习法”,无论是预测文本的下一个词,还是图像、视频的下一个视觉片段,都由同一个“大脑”来处理。
全国首个脑科学多模态通用基础模型、全国首个高精度生命智能模拟平台、全球首个视觉通用分割模型、全球首个生成式多模态大模型、全球最强具身大脑大模型……在短短七年多的时间里,智源研究院涌现出众多首创成果,其背后是无数次颠覆性的探索和重大的技术突破。
“灯塔”再启航
在一个充满未来感的机器人餐厅场景中,千寻机器人精准地将糖葫芦串好,好饮科技的咖啡机现煮咖啡,乐博空间的机械臂娴熟地调制果茶饮品,银河通用机器人负责递送糕点,而乐聚双臂机器人则能自主导航,将制作好的餐品送达客人手中。
这样充满科幻色彩的一幕,于今年3月在北京举行的2026中关村论坛年会主会场上演。让不同“出身”的机器人能够像一个训练有素的团队一样默契协作,其核心在于一套“跨本体机器人大脑操作系统”的调度指挥——这正是源自智源研究院的RoboBrain 2.0具身大脑与RoboOS 2.0协作平台。该系统成功打破了不同厂商、多类型机器人本体之间的协作壁垒,实现了从“单体智能”向“群体智能”的飞跃。
人工智能技术发展日新月异,如何才能迅速抓住新技术带来的“窗口期”?王仲远的回答是:“创新生态环境,比一两个项目的成败得失更为关键。”
“人工智能时代的创新,已不再是孤立的单点突破,而是需要数据、算力、算法、工程、评测等多个团队协同作战。”王仲远强调,人工智能领域的科研组织模式,既需要具备“企业式”的组织效率,又需要保有“高校式”的探索自由,而这正是新型研发机构的独特优势所在——它既能集中优势力量攻克重大难题,又能充分激发个体的创新活力。
在这里,科研人员的评价体系不再唯论文、唯职称、唯学历,也不设具体的量化考核指标。这里鼓励青年人才担当重任,并提供充足的试错空间,例如Emu3研发团队的带头人年仅29岁。此外,某个项目启动时,无需撰写冗长的项目论证报告和经历层层审批,一旦院务会认定方向具有价值,资源便会迅速到位。这种“敏捷科研”的模式,使得智源研究院能够在学术界尚未形成广泛共识、企业尚在犹豫观望的“无人区”率先布局和行动。
创新的火种,在这里被点燃,也在这里得以传承和延续。
1月8日上午9点30分,伴随着港交所交易大厅的掌声,智谱AI正式敲钟上市,成为“全球大模型第一股”。智谱的首席科学家,正是曾在智源研究院牵头“悟道”项目的清华大学教授唐杰。此外,月之暗面创始人杨植麟、面壁智能联合创始人刘知远、银河通用创始人王鹤……众多青年科学家从智源研究院走向产业一线,成长为杰出的创业者,智源研究院也因此被誉为AI领域的“黄埔军校”。
截至目前,智源研究院已累计孵化包括智谱AI、月之暗面、面壁智能、银河通用、星源智、脉冲视觉、深言科技在内的20余家掌握核心技术能力的人工智能创新企业,其中已有一家企业成功上市,两家企业估值超过百亿,四家企业估值超过十亿。这家年轻的新型研发机构以其坚实的步伐证明:当体制机制激活创新、让年轻人担当大任时,中国的人工智能不仅能够实现“跟跑”和“并跑”,更有可能在下一代技术浪潮中成为“领跑者”,开辟出属于自己的全新天地。
如今,智源研究院已将目光投向了更远的未来。“我们认为,接下来真正需要全球共同突破的科研前沿是世界模型。”王仲远表示,一如既往,智源研究院希望能够为中国人工智能指明技术发展方向,夯实技术基础,引领行业发展,成为那座照亮前行之路的“灯塔”。
更多消息
监制:刘昊
推荐阅读
27年了,我们不能忘!1999年这一天的新闻联播,现在看依旧心痛
本报报道后,北京街头“坐不下、起不来”的座椅,改了
“从0到1”,布局未来,北京越来越强!
伊朗:确认参加世界杯,开赛前14天抵美
近期热门视频
更多视频,尽在北京日报视频号,欢迎关注~