阿里豪掷2.9亿美金，加码下一代AI“世界模型”

发布时间：2026-05-07 15:56阅读：12

鉴于大型语言模型（LLM）的短板日益暴露，全球AI竞争的重心正由“文本生成”迁移至“模拟现实世界”。

4月10日获悉，阿里巴巴已牵头领投AI视频生成工具Vidu的研发商——生数科技（Shengshu Technology）的B轮融资，涉资20亿元人民币（约2.9亿美元）。这笔巨资表明科技巨头正重仓“世界模型”，意在打造一种能更精准复刻现实的新型AI。

本轮投资由阿里巴巴领衔，好未来教育及百度风投亦有参投。

这是生数科技在两个月内实现的第二笔大规模融资，此前该公司刚获启明创投等机构支持完成6亿元融资。虽生数科技未披露最新估值，但密集的资金注入已彰显市场对该技术路线的极度看好。

此次投资的核心逻辑，源于行业对当下主流AI技术路径的深度反思。过去数年，以OpenAI ChatGPT为首的文本训练大语言模型占据了市场主导。但随着应用场景深化，开发者们逐渐认识到，单凭文本无法让AI真正领悟复杂的物理法则。

生数科技指出，“依托视觉、音频及触觉等多模态数据搭建的通用世界模型，比大语言模型更自然地捕捉物理世界的运行机制，”这家成立仅三年的初创企业在声明中阐明了其技术愿景。

生数科技创始人朱军进一步补充：“我们的目标是连接感知与行动。”他期望通过这种新模型，让AI系统能更优地模拟并预测现实行为，进而打破数字与物理世界的界限。

据AI分析机构数据，生数科技今年1月推出的Vidu Q3 Pro型号，在文本与图像生成视频的AI模型中已位列全球前十。这一技术硬实力正是吸引阿里巴巴入局的关键所在。

实际上，阿里在“世界模型”领域的布局早已悄然启动。身为电商出身的科技巨头，阿里不仅于2月推出了一款驱动机器人的模型，还发布了用于视频生成的免费开源AI模型。

除生数科技外，阿里近期还领投了PixVerse的6000万美元融资。PixVerse今年早些时候发布了AI世界模型，允许用户在视频生成时精准控制视频展开。与此同时，百度及百度风投上月亦领投了Tripo AI的5000万美元融资。Tripo AI致力于利用AI从照片快速生成3D数字模型，并明确表示正摒弃语言模型技术，转向基于物理空间的AI工具研发。

这轮投资热潮的背后，折射出全球科技界对AI下一阶段形态的共识。美国科技杂志《连线》联合创始人凯文·凯利上月于其Substack专栏撰文指出，世界模型对机器人技术至关重要，因该技术所需远超LLM的能力范畴。

凯利表示：“最终，要复刻人类智能，AI需具备三大要素：推理能力、对物理世界的理解及持续学习。”他特别强调，尽管当前聊天机器人已构建了知识要素，但“世界模型仍是亟需突破的关键领域”。

在激烈的市场角逐中，中国科技企业正试图借“世界模型”实现弯道超车。随着OpenAI逐步关停其视频生成模型Sora的相关服务，字节跳动、快手等多家公司相继推出了类似的AI视频生成工具。

生数科技周五透露，公司已与多家研发具身智能（Embodied AI）的企业达成战略合作。这些合作旨在将AI技术应用于与物理世界交互的人形机器人等系统，服务于工业、商业及家庭场景。

← 上一篇：AI 合规新规：警惕云端AI数据风险，本地部署成企业“安全阀” 下一篇：AI赋能大学英语教学：智慧创新与翻译大赛盛会 →