标签

阿里通义发布:PrismAudio 利用AI生成更优音频

近日,香港科技大学、阿里巴巴通义实验室、香港中文大学联合发表一篇论文《PrismAudio: 分解思维链与多维奖励的视频转音频方法》,提出了一种全新框架,巧妙解决现有难题。其核心理念为:“分而治之,协同优化”。论文首先指出当前V2A技术的三大瓶颈:为攻克这些问题,PrismAudio构建了一个全新框架,首次将强化学习(RL)与专业化思维链(CoT)深度结合。其创新之处在于:PrismAudio的最大亮点是将“全面”的思维链拆分为四个专业化、模块化的子思维链,每个子链专注一个感知维度:这种设计如同组建专家团

2026-04-01 10:02:58  |  5 阅读