Stability AI推出视频扩散模型:静态图像秒变动态影像
(本文共753字,阅读时间约1分钟)
人工智能初创企业Stability AI近日发布了全新AI模型——Stable Video Diffusion,引发业界热议。该模型以先前推出的Stable Diffusion文生图技术为基础,核心突破在于能够把静态图片转换成高质量视频内容。
目前,Stable Video Diffusion仍处于研究预览期,用户需签署特定使用协议,明确预期应用场景(如教育、创意工具、设计及各类艺术创作等)与禁止用途(如真实人物或事件的虚假呈现)。该模型推出双版本:SVD与SVD-XT。SVD可将静态图像生成14帧576×1024分辨率的视频,而SVD-XT在相同架构上提升至24帧,两版本均支持每秒3至30帧的生成速率。
不过,这项技术也存在明显短板。Stable Video Diffusion暂不支持生成静态或慢动作画面,无法通过文字指令操控,难以清晰呈现文字内容,且在人脸和人物渲染方面仍有瑕疵。该模型的发布也引发部分担忧,特别是关于潜在滥用风险。模型似乎缺少内置的内容审核机制,可能增加制作不良内容的隐患。
Stability AI指出,虽然模型存在诸多限制,但具备良好的可扩展性,能够适配生成物体360度图像等多种应用场景。公司打算基于SVD和SVD-XT推出系列新模型,并将文字提示功能整合到网络的“文生视频”工具中。长远目标显然是实现商业化,应用领域涵盖广告、教育、娱乐等行业。
Stable Video Diffusion技术层面深度解析
Stable Video Diffusion定位为高分辨率视频潜在扩散模型,在文生视频或图生视频领域达到领先水平。该模型通过引入时间维度层,并在小型高质量视频数据集上进行微调,成功将2D图像合成的潜在扩散模型转化为视频生成模型。
成功训练Stable Video Diffusion需经历三个关键阶段:图像预训练、视频预训练数据集与高质量微调。在图像预训练阶段,模型基于Stable Diffusion 2.1构建,为视频模型奠定扎实的视觉表征基础。视频预训练数据集以人类偏好为信号,构建了包含5.8亿对带标注视频片段的大规模视频数据集。
在高质量微调阶段,Stability AI对三个模型进行了微调,深入分析了视频预训练对最终效果的影响。模型的成功训练为下游任务提供了强大的运动表征,具有广阔的应用前景。
然而,Stable Video Diffusion目前尚不适合现实场景或直接商业化部署,Stability AI计划根据用户对安全性与质量方面的反馈持续优化模型。尽管模型仍处于早期阶段,但它为Stability AI的多模态产品矩阵提供了有力支撑,涵盖图像、语言、音频、三维和代码等领域,彰显了公司提升AI技术实力的坚定决心。