阿里通义发布:PrismAudio 利用AI生成更优音频
近日,香港科技大学、阿里巴巴通义实验室、香港中文大学联合发表一篇论文《PrismAudio: 分解思维链与多维奖励的视频转音频方法》,提出了一种全新框架,巧妙解决现有难题。其核心理念为:“分而治之,协同优化”。
论文首先指出当前V2A技术的三大瓶颈:
为攻克这些问题,PrismAudio构建了一个全新框架,首次将强化学习(RL)与专业化思维链(CoT)深度结合。其创新之处在于:
PrismAudio的最大亮点是将“全面”的思维链拆分为四个专业化、模块化的子思维链,每个子链专注一个感知维度:
这种设计如同组建专家团队,各司其职,避免单一“全能专家”的认知负担和幻觉。
分维度思考后,PrismAudio为每个维度配置专门的“评分员”(即奖励函数),并通过强化学习指导模型生成。
这样,强化学习的目标不仅是生成波形相似,而是引导模型在所有维度上获得高分,实现真正的多维目标协同优化。
为提高扩散模型RL训练效率,设计多维奖励函数和Fast-GRPO算法。
针对现有数据集缺陷,构建包含3177个真实视频的基准集,核心特征:
实验结果显示,PrismAudio在多个维度上显著优于现有最佳模型:
在常规测试集上:在语义一致性、时序同步性、美学质量、空间准确性方面表现最佳。相比之前最优的ThinkSound模型,主观评分(MOS)大幅提升。
在全新的AudioCanvas挑战性基准上:当其他基线模型(特别是ThinkSound)因复杂场景性能下降时,PrismAudio保持稳定,某些指标甚至超越真实音频。这表明其学习的是真实音视频原理,而非简单模式记忆。
消融实验:
PrismAudio通过分解式思维链与多维奖励强化学习的结合,为视频转音频生成领域带来全新、可解释且可控的方法。它不再依赖单一“黑盒子”,而是模拟人类专家“分工协作”的方式,系统解决多目标冲突和人类偏好对齐的问题。
这项研究不仅为V2A技术树立新标杆,也为其他多模态生成任务(如文本到音乐、文本到视频)提供重要启示。随着代码和模型的即将开源,未来AI在“听声辨画”和“为画配音”方面将更加智能、专业和富有艺术感。
论文信息: