OpenAI深夜投下震撼弹,Sora引爆AI视频革命
毫无征兆地,OpenAI在深夜抛出一枚重磅炸弹,整个行业都感受到了颠覆性的震动。
2月16日凌晨,OpenAI正式推出了其首个“文本生成视频”模型Sora。根据官方介绍,Sora能够依据文字描述,创造出细节丰富、场景逼真的内容,还能运用多角度镜头,生成长达60秒的连贯视频。
官网目前已展示了48个样例视频,其中的人物与背景展现出惊人的一致性与协调性。得益于对语言的深刻解析,Sora创造的角色能够表达出细腻多样的情感。
更让业内人士感到震惊的是,Sora似乎开始展现出“世界模型”的初步形态。通过对海量视频数据的学习训练,它掌握了许多现实世界的物理规则。
过去,动画和影视公司为了让数百万根动物毛发、皮肤纹理、衣物褶皱等细节在3D建模中达到逼真效果,往往需要设立专门的研究部门,投入大量成本和时间。而现在,Sora仅需一段文字描述、几次简单提示便能自动实现。
尽管OpenAI承认Sora在效果上仍存在一些不足,并且出于对潜在风险的考量尚未向公众开放。但其极度真实的视觉效果,这种足以“混淆真实与虚拟”的突破性技术,正强烈冲击着人们的认知。
事实上,文本生成视频技术并非OpenAI的专利,该赛道早已涌入众多竞争者。自去年下半年以来,谷歌、Meta以及一些AI初创公司相继入局尝试,国内的字节跳动也于11月推出了文生视频模型Pixel Dance,阿里云的Animate Anyone以及百度文心大模型的类似功能同样处于测试阶段。
参与者虽多,但各家效果尚未达到理想水平。当Runway Gen2、Pika、PixVerse等AI视频工具还在努力突破几秒钟内的画面连贯性时,Sora已将生成时长延长至1分钟,极大地提升了生成视频的实用价值。影眸科技CTO张启煊评价道,Sora已经与Pika、Runway及其他同类产品拉开了代际差距。
颠覆性的效果,源于颠覆性的思路。360董事长周鸿祎指出,目前大多数文生图、文生视频模型只是在二维平面对图形元素进行操作,并未遵循物理定律。
而OpenAI则充分发挥了其大语言模型优势,将LLM与Diffusion模型结合进行训练,通过分析视频数据来理解现实世界的动态规律,进而模拟并创造出全新的视觉内容,因此生成的视频极具真实感。
回望过去,文本生成视频技术之所以能蔚然成风,成为全球新一轮AIGC竞赛的焦点,是因为各方都嗅到了其在全球短视频、直播电商、内容创作等新兴领域的巨大潜力。周鸿祎认为,Sora可能会对广告业、电影预告片、短视频行业产生巨大冲击,成为激发创作潜能的强大工具。
AI从业者们更是敏锐地察觉到,Sora在展示视频制作能力之外,更深层的意义在于,随着大模型逐渐掌握对真实世界的理解与模拟能力,未来可能带来更令人惊叹的突破与成果。
拥有强大的基础模型、基于对人类语言的解析、对人类知识和世界模型的认知,再结合其他技术,周鸿祎认为这将能够创造出适用于各个领域的超级工具。因为这种“先记忆,再预测”的模式,正是人类理解并与世界互动的方式。
他举例说明,Sora对物理世界的模拟能力,将对智能驾驶领域产生深远影响。以往的智能驾驶系统“重感知”而“轻认知”,他认为人类在驾驶时的许多判断是基于对世界的理解,缺乏这一点很难实现真正的无人驾驶。
行业专家普遍认为,技术应用演化的最终目标,将是真正通用人工智能(AGI)时代的来临。
Sora的技术文档中写道:“我们的结果表明,视频生成模型是构建通用物理世界模拟器的一条可行路径。”
“一旦人工智能连接上摄像头,看遍所有的电影和视频,它对世界的理解将远超仅通过文字学习。AGI真的就不远了,或许不是10-20年,可能在一两年内就能实现。”周鸿祎如此说道。
“我相信OpenAI手中可能还隐藏着一些秘密武器,无论是GPT-5,还是机器学习自动生成内容。”周鸿祎表示,“奥特曼是一位深谙节奏的营销大师。”
这与Sam Altman计划筹集7万亿美元打造全球AI芯片基础设施的雄心形成了闭环,因为在通往通用人工智能的道路上,需要极其庞大的计算能力作为支撑。
近期有投资界人士透露,OpenAI正在商讨新一轮融资,估值可能高达千亿美元。作为行业领头羊,怀揣着主导AI行业、重塑全球AI芯片格局的宏大野心,OpenAI势必借助资本的力量不断壮大。
回顾这场由AI公司与资本共同交织的竞赛,技术迭代始终是跳跃式的,不会给任何人慢慢追赶的时间。未来的世界与AI行业将驶向何方?目前还难以定论,但可以肯定的是,眼下的2024年,必将又是充满变革与刺激的一年。