2026 AI 视频新纪元：Sora 与 Veo 3 如何构建动态世界

发布时间：2026-06-12 09:01阅读：14

📍 张掖丹霞 · 中国 — 大地调色盘，上帝打翻的颜料

2024 年初，OpenAI 首次展示了 Sora 的演示片段，画面中一只猛犸象踏雪而行，毛发随风飘动，脚下的积雪被踩出真实的凹陷。这一幕令所有人震撼。但若逐帧拆解该视频，会发现一个关键细节：那只猛犸象并非由 AI 先画第一帧再续第二帧，而是将整段时空视为一块完整的积木，直接从噪点中一次性「雕刻」而成。

这一任务的难度，远超绝大多数人的预估。

如今 AI 生成一张优质照片已轻车熟路。然而，一段视频绝非 30 张好照片的简单拼接。第 1 帧中猛犸象的左前腿，到了第 30 帧必须依然位于同一位置，不能凭空多出一条腿，也不能突然变色；它踩出的雪坑需符合重力逻辑，扬起的雪花应向下飘落而非向上飞升。这是一道关于「时空一致性」的物理难题，也是 AI 至今尚未完全攻克的最严峻挑战。

步入 2026 年，一群探索者反复刷新这道难题的得分：OpenAI 的 Sora、Google 的 Veo 3、以及国产阵营的可灵与腾讯混元，各自交出了风格迥异的答卷。今天，我们将彻底拆解这份「AI 摄影师的考卷」，探究 AI 究竟如何从一团噪点中，「脑补」出一个会动、有声且基本遵循物理规律的世界。

要理解视频生成的技术突破，必须先厘清其与图片生成的本质差异。二者看似仅差一个「动」字，背后难度却是指数级跨越。

图片生成（如 Stable Diffusion、Midjourney）本质上解决的是「空间问题」。AI 的任务是在二维画布上，将每个像素安排至合理位置：天空在上、地面在下、人脸五官不可错位。它只需确保单个瞬间的合理性即可。

扩散模型（Diffusion）已在此领域表现卓越。简要回顾其核心逻辑：训练时，向清晰图片持续添加噪声直至变成纯随机雪花点；随后训练神经网络学会「逆向去噪」，从雪花点中还原图像。生成时，输入随机噪点，模型便能逐步「雕刻」出一张全新图片。笔者此前曾撰写过 Diffusion 专题，此处不再赘述。

视频生成则多了一个魔鬼维度——时间。

由此引出视频生成的三座大山：

●时序一致性（Temporal Consistency）：物体在帧间不得「闪现」「变形」或「漂移」。人物衣着颜色不可频繁跳变，车辆行驶中不能莫名缺失轮子。

●物理合理性（Physical Plausibility）：运动需符合直觉物理。球落地会反弹，水流向下，火焰向上窜升，影子随光源移动。AI 并未学习牛顿定律，只能从海量视频中「推测」物理规律。

●长程连贯性（Long-range Coherence）：一段 10 秒视频包含 240 帧，第 1 帧与第 240 帧间须维持同一「世界」。镜头离开主角再返回时，主角不可更换面孔。

为何如此艰难？因为帧间关联是「全局」的——第 200 帧的样貌，可能取决于第 1 帧设定的场景、光线与人物。这是一个超长序列依赖问题。而恰好，有一种架构天生擅长处理此类全局依赖：Transformer。

这正是 2024 年后视频生成的主线故事——当 Diffusion 邂逅 Transformer。

2024 年 2 月，OpenAI 发布 Sora 技术博客，标题充满野心：《将视频生成模型视为世界模拟器》。虽未公开完整论文，但博客透露的核心思路，奠定了随后两年主流视频模型的技术范式。

Sora 的核心创新可浓缩为一句话：

此话乍听拗口，却是全文最关键的钥匙。我们层层拆解。

想必你已知晓，大语言模型（LLM）处理文本时，先将句子切分为一个个 token（词元），再利用 Transformer 建模 token 间关系——谁与谁相关，注意力应聚焦何处。这套机制极擅处理「序列」。

Sora 做了一件聪明事：将视频也切分为 token，使 Transformer 能像处理文字般处理视频。

不过，视频的「token」并非词汇，而是时空 patch——你可将其想象为一小块「会动的乐高积木」。每块积木既包含画面某小区域的视觉信息（空间维度），也涵盖该区域在短时间内的变化轨迹（时间维度）。

直接操作原始像素，计算量将呈爆炸式增长。一段 1080p、数秒长的视频，像素数量堪称天文数字。因此 Sora 采用「隐空间」（latent space）路线，分两步走：

1.压缩：首先利用视频编码器（Video Encoder），将原始视频压缩为低维「时空隐表示」。此步骤剔除冗余信息（如背景中大片静止的天空），仅保留精华。这相当于将高清电影压缩为「剧情大纲 + 关键动作笔记」。

2.切块：随后从压缩后的隐空间中，切取一连串「时空隐 patch」。这些 patch 即作为 Transformer 的输入序列，地位等同于 LLM 中的 token。

生成时则逆向操作：从随机噪点出发，Diffusion Transformer（业界简称 DiT）逐步将这些乱码 patch「去噪」为有意义的时空 patch，最终通过解码器还原为像素视频。

该设计带来三大杀手级优势：

●支持任意时长、分辨率与比例的视频。因视频被统一切分为 patch 序列，Transformer 不在乎原始是横屏或竖屏、3 秒还是 1 分钟，patch 越多仅多算片刻。这解决了旧模型仅能生成固定尺寸视频的致命缺陷。

●原生支持「全局注意力」。第 200 帧的某块 patch，可直接「看见」第 1 帧的某块 patch，建立长程关联。这是时序一致性的基石。

●Scaling 友好。OpenAI 在博客中展示了一组对比图：在相同训练设置下，计算量翻倍甚至再翻倍，生成质量肉眼可见提升——画面更稳、物理更合理、细节更丰富。这意味着视频生成同样享受了「大力出奇迹」的 Scaling 红利。

此处还有一个常被忽视的工程巧思值得提及：patch packing（patch 打包）。不同时长与分辨率的视频，切出的 patch 数量差异巨大。Sora 的做法是将不同

← 上一篇：Anthropic警示：AI自我进化速度超预期下一篇：2025年数据资产规模突破1.67ZB 增速达28.46% →