2026 AI 视频新纪元:Sora 与 Veo 3 如何构建动态世界
📍 张掖丹霞 · 中国 — 大地调色盘,上帝打翻的颜料
2024 年初,OpenAI 首次展示了 Sora 的演示片段,画面中一只猛犸象踏雪而行,毛发随风飘动,脚下的积雪被踩出真实的凹陷。这一幕令所有人震撼。但若逐帧拆解该视频,会发现一个关键细节:那只猛犸象并非由 AI 先画第一帧再续第二帧,而是将整段时空视为一块完整的积木,直接从噪点中一次性「雕刻」而成。
这一任务的难度,远超绝大多数人的预估。
如今 AI 生成一张优质照片已轻车熟路。然而,一段视频绝非 30 张好照片的简单拼接。第 1 帧中猛犸象的左前腿,到了第 30 帧必须依然位于同一位置,不能凭空多出一条腿,也不能突然变色;它踩出的雪坑需符合重力逻辑,扬起的雪花应向下飘落而非向上飞升。这是一道关于「时空一致性」的物理难题,也是 AI 至今尚未完全攻克的最严峻挑战。
步入 2026 年,一群探索者反复刷新这道难题的得分:OpenAI 的 Sora、Google 的 Veo 3、以及国产阵营的可灵与腾讯混元,各自交出了风格迥异的答卷。今天,我们将彻底拆解这份「AI 摄影师的考卷」,探究 AI 究竟如何从一团噪点中,「脑补」出一个会动、有声且基本遵循物理规律的世界。
要理解视频生成的技术突破,必须先厘清其与图片生成的本质差异。二者看似仅差一个「动」字,背后难度却是指数级跨越。
图片生成(如 Stable Diffusion、Midjourney)本质上解决的是「空间问题」。AI 的任务是在二维画布上,将每个像素安排至合理位置:天空在上、地面在下、人脸五官不可错位。它只需确保单个瞬间的合理性即可。
扩散模型(Diffusion)已在此领域表现卓越。简要回顾其核心逻辑:训练时,向清晰图片持续添加噪声直至变成纯随机雪花点;随后训练神经网络学会「逆向去噪」,从雪花点中还原图像。生成时,输入随机噪点,模型便能逐步「雕刻」出一张全新图片。笔者此前曾撰写过 Diffusion 专题,此处不再赘述。
视频生成则多了一个魔鬼维度——时间。
由此引出视频生成的三座大山:
●时序一致性(Temporal Consistency):物体在帧间不得「闪现」「变形」或「漂移」。人物衣着颜色不可频繁跳变,车辆行驶中不能莫名缺失轮子。
●物理合理性(Physical Plausibility):运动需符合直觉物理。球落地会反弹,水流向下,火焰向上窜升,影子随光源移动。AI 并未学习牛顿定律,只能从海量视频中「推测」物理规律。
●长程连贯性(Long-range Coherence):一段 10 秒视频包含 240 帧,第 1 帧与第 240 帧间须维持同一「世界」。镜头离开主角再返回时,主角不可更换面孔。
为何如此艰难?因为帧间关联是「全局」的——第 200 帧的样貌,可能取决于第 1 帧设定的场景、光线与人物。这是一个超长序列依赖问题。而恰好,有一种架构天生擅长处理此类全局依赖:Transformer。
这正是 2024 年后视频生成的主线故事——当 Diffusion 邂逅 Transformer。
2024 年 2 月,OpenAI 发布 Sora 技术博客,标题充满野心:《将视频生成模型视为世界模拟器》。虽未公开完整论文,但博客透露的核心思路,奠定了随后两年主流视频模型的技术范式。
Sora 的核心创新可浓缩为一句话:
此话乍听拗口,却是全文最关键的钥匙。我们层层拆解。
想必你已知晓,大语言模型(LLM)处理文本时,先将句子切分为一个个 token(词元),再利用 Transformer 建模 token 间关系——谁与谁相关,注意力应聚焦何处。这套机制极擅处理「序列」。
Sora 做了一件聪明事:将视频也切分为 token,使 Transformer 能像处理文字般处理视频。
不过,视频的「token」并非词汇,而是时空 patch——你可将其想象为一小块「会动的乐高积木」。每块积木既包含画面某小区域的视觉信息(空间维度),也涵盖该区域在短时间内的变化轨迹(时间维度)。
直接操作原始像素,计算量将呈爆炸式增长。一段 1080p、数秒长的视频,像素数量堪称天文数字。因此 Sora 采用「隐空间」(latent space)路线,分两步走:
1.压缩:首先利用视频编码器(Video Encoder),将原始视频压缩为低维「时空隐表示」。此步骤剔除冗余信息(如背景中大片静止的天空),仅保留精华。这相当于将高清电影压缩为「剧情大纲 + 关键动作笔记」。
2.切块:随后从压缩后的隐空间中,切取一连串「时空隐 patch」。这些 patch 即作为 Transformer 的输入序列,地位等同于 LLM 中的 token。
生成时则逆向操作:从随机噪点出发,Diffusion Transformer(业界简称 DiT)逐步将这些乱码 patch「去噪」为有意义的时空 patch,最终通过解码器还原为像素视频。
该设计带来三大杀手级优势:
●支持任意时长、分辨率与比例的视频。因视频被统一切分为 patch 序列,Transformer 不在乎原始是横屏或竖屏、3 秒还是 1 分钟,patch 越多仅多算片刻。这解决了旧模型仅能生成固定尺寸视频的致命缺陷。
●原生支持「全局注意力」。第 200 帧的某块 patch,可直接「看见」第 1 帧的某块 patch,建立长程关联。这是时序一致性的基石。
●Scaling 友好。OpenAI 在博客中展示了一组对比图:在相同训练设置下,计算量翻倍甚至再翻倍,生成质量肉眼可见提升——画面更稳、物理更合理、细节更丰富。这意味着视频生成同样享受了「大力出奇迹」的 Scaling 红利。
此处还有一个常被忽视的工程巧思值得提及:patch packing(patch 打包)。不同时长与分辨率的视频,切出的 patch 数量差异巨大。Sora 的做法是将不同