标签

阿里豪掷2.9亿美金,加码下一代AI“世界模型”

发布时间:2026-05-07 15:56来源:微信阅读:7

鉴于大型语言模型(LLM)的短板日益暴露,全球AI竞争的重心正由“文本生成”迁移至“模拟现实世界”。

4月10日获悉,阿里巴巴已牵头领投AI视频生成工具Vidu的研发商——生数科技(Shengshu Technology)的B轮融资,涉资20亿元人民币(约2.9亿美元)。这笔巨资表明科技巨头正重仓“世界模型”,意在打造一种能更精准复刻现实的新型AI。

本轮投资由阿里巴巴领衔,好未来教育及百度风投亦有参投。

这是生数科技在两个月内实现的第二笔大规模融资,此前该公司刚获启明创投等机构支持完成6亿元融资。虽生数科技未披露最新估值,但密集的资金注入已彰显市场对该技术路线的极度看好。

此次投资的核心逻辑,源于行业对当下主流AI技术路径的深度反思。过去数年,以OpenAI ChatGPT为首的文本训练大语言模型占据了市场主导。但随着应用场景深化,开发者们逐渐认识到,单凭文本无法让AI真正领悟复杂的物理法则。

生数科技指出,“依托视觉、音频及触觉等多模态数据搭建的通用世界模型,比大语言模型更自然地捕捉物理世界的运行机制,”这家成立仅三年的初创企业在声明中阐明了其技术愿景。

生数科技创始人朱军进一步补充:“我们的目标是连接感知与行动。”他期望通过这种新模型,让AI系统能更优地模拟并预测现实行为,进而打破数字与物理世界的界限。

据AI分析机构数据,生数科技今年1月推出的Vidu Q3 Pro型号,在文本与图像生成视频的AI模型中已位列全球前十。这一技术硬实力正是吸引阿里巴巴入局的关键所在。

实际上,阿里在“世界模型”领域的布局早已悄然启动。身为电商出身的科技巨头,阿里不仅于2月推出了一款驱动机器人的模型,还发布了用于视频生成的免费开源AI模型。

除生数科技外,阿里近期还领投了PixVerse的6000万美元融资。PixVerse今年早些时候发布了AI世界模型,允许用户在视频生成时精准控制视频展开。与此同时,百度及百度风投上月亦领投了Tripo AI的5000万美元融资。Tripo AI致力于利用AI从照片快速生成3D数字模型,并明确表示正摒弃语言模型技术,转向基于物理空间的AI工具研发。

这轮投资热潮的背后,折射出全球科技界对AI下一阶段形态的共识。美国科技杂志《连线》联合创始人凯文·凯利上月于其Substack专栏撰文指出,世界模型对机器人技术至关重要,因该技术所需远超LLM的能力范畴。

凯利表示:“最终,要复刻人类智能,AI需具备三大要素:推理能力、对物理世界的理解及持续学习。”他特别强调,尽管当前聊天机器人已构建了知识要素,但“世界模型仍是亟需突破的关键领域”。

在激烈的市场角逐中,中国科技企业正试图借“世界模型”实现弯道超车。随着OpenAI逐步关停其视频生成模型Sora的相关服务,字节跳动、快手等多家公司相继推出了类似的AI视频生成工具。

生数科技周五透露,公司已与多家研发具身智能(Embodied AI)的企业达成战略合作。这些合作旨在将AI技术应用于与物理世界交互的人形机器人等系统,服务于工业、商业及家庭场景。