Stability AI推出视频扩散模型：静态图像秒变动态影像

发布时间：2026-06-03 16:50阅读：92

（本文共753字，阅读时间约1分钟）

人工智能初创企业Stability AI近日发布了全新AI模型——Stable Video Diffusion，引发业界热议。该模型以先前推出的Stable Diffusion文生图技术为基础，核心突破在于能够把静态图片转换成高质量视频内容。

目前，Stable Video Diffusion仍处于研究预览期，用户需签署特定使用协议，明确预期应用场景（如教育、创意工具、设计及各类艺术创作等）与禁止用途（如真实人物或事件的虚假呈现）。该模型推出双版本：SVD与SVD-XT。SVD可将静态图像生成14帧576×1024分辨率的视频，而SVD-XT在相同架构上提升至24帧，两版本均支持每秒3至30帧的生成速率。

不过，这项技术也存在明显短板。Stable Video Diffusion暂不支持生成静态或慢动作画面，无法通过文字指令操控，难以清晰呈现文字内容，且在人脸和人物渲染方面仍有瑕疵。该模型的发布也引发部分担忧，特别是关于潜在滥用风险。模型似乎缺少内置的内容审核机制，可能增加制作不良内容的隐患。

Stability AI指出，虽然模型存在诸多限制，但具备良好的可扩展性，能够适配生成物体360度图像等多种应用场景。公司打算基于SVD和SVD-XT推出系列新模型，并将文字提示功能整合到网络的“文生视频”工具中。长远目标显然是实现商业化，应用领域涵盖广告、教育、娱乐等行业。

Stable Video Diffusion技术层面深度解析

Stable Video Diffusion定位为高分辨率视频潜在扩散模型，在文生视频或图生视频领域达到领先水平。该模型通过引入时间维度层，并在小型高质量视频数据集上进行微调，成功将2D图像合成的潜在扩散模型转化为视频生成模型。

成功训练Stable Video Diffusion需经历三个关键阶段：图像预训练、视频预训练数据集与高质量微调。在图像预训练阶段，模型基于Stable Diffusion 2.1构建，为视频模型奠定扎实的视觉表征基础。视频预训练数据集以人类偏好为信号，构建了包含5.8亿对带标注视频片段的大规模视频数据集。

在高质量微调阶段，Stability AI对三个模型进行了微调，深入分析了视频预训练对最终效果的影响。模型的成功训练为下游任务提供了强大的运动表征，具有广阔的应用前景。

然而，Stable Video Diffusion目前尚不适合现实场景或直接商业化部署，Stability AI计划根据用户对安全性与质量方面的反馈持续优化模型。尽管模型仍处于早期阶段，但它为Stability AI的多模态产品矩阵提供了有力支撑，涵盖图像、语言、音频、三维和代码等领域，彰显了公司提升AI技术实力的坚定决心。

← 上一篇：智慧高教AI专区重磅推出首批34门人工智能英文课程,加速推进AI教育国际化进程下一篇：政务小课堂第八期：AI主播“兢兢”带您了解便民常识 →