阿里通义发布：PrismAudio 利用AI生成更优音频

发布时间：2026-04-01 10:02阅读：10

近日，香港科技大学、阿里巴巴通义实验室、香港中文大学联合发表一篇论文《PrismAudio: 分解思维链与多维奖励的视频转音频方法》，提出了一种全新框架，巧妙解决现有难题。其核心理念为：“分而治之，协同优化”。

论文首先指出当前V2A技术的三大瓶颈：

为攻克这些问题，PrismAudio构建了一个全新框架，首次将强化学习（RL）与专业化思维链（CoT）深度结合。其创新之处在于：

PrismAudio的最大亮点是将“全面”的思维链拆分为四个专业化、模块化的子思维链，每个子链专注一个感知维度：

这种设计如同组建专家团队，各司其职，避免单一“全能专家”的认知负担和幻觉。

分维度思考后，PrismAudio为每个维度配置专门的“评分员”（即奖励函数），并通过强化学习指导模型生成。

这样，强化学习的目标不仅是生成波形相似，而是引导模型在所有维度上获得高分，实现真正的多维目标协同优化。

为提高扩散模型RL训练效率，设计多维奖励函数和Fast-GRPO算法。

针对现有数据集缺陷，构建包含3177个真实视频的基准集，核心特征：

实验结果显示，PrismAudio在多个维度上显著优于现有最佳模型：

在常规测试集上：在语义一致性、时序同步性、美学质量、空间准确性方面表现最佳。相比之前最优的ThinkSound模型，主观评分（MOS）大幅提升。

在全新的AudioCanvas挑战性基准上：当其他基线模型（特别是ThinkSound）因复杂场景性能下降时，PrismAudio保持稳定，某些指标甚至超越真实音频。这表明其学习的是真实音视频原理，而非简单模式记忆。

消融实验：

PrismAudio通过分解式思维链与多维奖励强化学习的结合，为视频转音频生成领域带来全新、可解释且可控的方法。它不再依赖单一“黑盒子”，而是模拟人类专家“分工协作”的方式，系统解决多目标冲突和人类偏好对齐的问题。

这项研究不仅为V2A技术树立新标杆，也为其他多模态生成任务（如文本到音乐、文本到视频）提供重要启示。随着代码和模型的即将开源，未来AI在“听声辨画”和“为画配音”方面将更加智能、专业和富有艺术感。

论文信息：