OpenAI深夜投下震撼弹，Sora引爆AI视频革命

发布时间：2026-04-06 14:06阅读：13

毫无征兆地，OpenAI在深夜抛出一枚重磅炸弹，整个行业都感受到了颠覆性的震动。

2月16日凌晨，OpenAI正式推出了其首个“文本生成视频”模型Sora。根据官方介绍，Sora能够依据文字描述，创造出细节丰富、场景逼真的内容，还能运用多角度镜头，生成长达60秒的连贯视频。

官网目前已展示了48个样例视频，其中的人物与背景展现出惊人的一致性与协调性。得益于对语言的深刻解析，Sora创造的角色能够表达出细腻多样的情感。

更让业内人士感到震惊的是，Sora似乎开始展现出“世界模型”的初步形态。通过对海量视频数据的学习训练，它掌握了许多现实世界的物理规则。

过去，动画和影视公司为了让数百万根动物毛发、皮肤纹理、衣物褶皱等细节在3D建模中达到逼真效果，往往需要设立专门的研究部门，投入大量成本和时间。而现在，Sora仅需一段文字描述、几次简单提示便能自动实现。

尽管OpenAI承认Sora在效果上仍存在一些不足，并且出于对潜在风险的考量尚未向公众开放。但其极度真实的视觉效果，这种足以“混淆真实与虚拟”的突破性技术，正强烈冲击着人们的认知。

事实上，文本生成视频技术并非OpenAI的专利，该赛道早已涌入众多竞争者。自去年下半年以来，谷歌、Meta以及一些AI初创公司相继入局尝试，国内的字节跳动也于11月推出了文生视频模型Pixel Dance，阿里云的Animate Anyone以及百度文心大模型的类似功能同样处于测试阶段。

参与者虽多，但各家效果尚未达到理想水平。当Runway Gen2、Pika、PixVerse等AI视频工具还在努力突破几秒钟内的画面连贯性时，Sora已将生成时长延长至1分钟，极大地提升了生成视频的实用价值。影眸科技CTO张启煊评价道，Sora已经与Pika、Runway及其他同类产品拉开了代际差距。

颠覆性的效果，源于颠覆性的思路。360董事长周鸿祎指出，目前大多数文生图、文生视频模型只是在二维平面对图形元素进行操作，并未遵循物理定律。

而OpenAI则充分发挥了其大语言模型优势，将LLM与Diffusion模型结合进行训练，通过分析视频数据来理解现实世界的动态规律，进而模拟并创造出全新的视觉内容，因此生成的视频极具真实感。

回望过去，文本生成视频技术之所以能蔚然成风，成为全球新一轮AIGC竞赛的焦点，是因为各方都嗅到了其在全球短视频、直播电商、内容创作等新兴领域的巨大潜力。周鸿祎认为，Sora可能会对广告业、电影预告片、短视频行业产生巨大冲击，成为激发创作潜能的强大工具。

AI从业者们更是敏锐地察觉到，Sora在展示视频制作能力之外，更深层的意义在于，随着大模型逐渐掌握对真实世界的理解与模拟能力，未来可能带来更令人惊叹的突破与成果。

拥有强大的基础模型、基于对人类语言的解析、对人类知识和世界模型的认知，再结合其他技术，周鸿祎认为这将能够创造出适用于各个领域的超级工具。因为这种“先记忆，再预测”的模式，正是人类理解并与世界互动的方式。

他举例说明，Sora对物理世界的模拟能力，将对智能驾驶领域产生深远影响。以往的智能驾驶系统“重感知”而“轻认知”，他认为人类在驾驶时的许多判断是基于对世界的理解，缺乏这一点很难实现真正的无人驾驶。

行业专家普遍认为，技术应用演化的最终目标，将是真正通用人工智能（AGI）时代的来临。

Sora的技术文档中写道：“我们的结果表明，视频生成模型是构建通用物理世界模拟器的一条可行路径。”

“一旦人工智能连接上摄像头，看遍所有的电影和视频，它对世界的理解将远超仅通过文字学习。AGI真的就不远了，或许不是10-20年，可能在一两年内就能实现。”周鸿祎如此说道。

“我相信OpenAI手中可能还隐藏着一些秘密武器，无论是GPT-5，还是机器学习自动生成内容。”周鸿祎表示，“奥特曼是一位深谙节奏的营销大师。”

这与Sam Altman计划筹集7万亿美元打造全球AI芯片基础设施的雄心形成了闭环，因为在通往通用人工智能的道路上，需要极其庞大的计算能力作为支撑。

近期有投资界人士透露，OpenAI正在商讨新一轮融资，估值可能高达千亿美元。作为行业领头羊，怀揣着主导AI行业、重塑全球AI芯片格局的宏大野心，OpenAI势必借助资本的力量不断壮大。

回顾这场由AI公司与资本共同交织的竞赛，技术迭代始终是跳跃式的，不会给任何人慢慢追赶的时间。未来的世界与AI行业将驶向何方？目前还难以定论，但可以肯定的是，眼下的2024年，必将又是充满变革与刺激的一年。

← 上一篇：AI离日常生活还有多近下一篇：AI手机竞速开启，谁会先冲出起跑线？ →