标签

阿里通义发布:PrismAudio 利用AI生成更优音频

近日,香港科技大学、阿里巴巴通义实验室、香港中文大学联合发表一篇论文《PrismAudio: 分解思维链与多维奖励的视频转音频方法》,提出了一种全新框架,巧妙解决现有难题。其核心理念为:“分而治之,协同优化”。论文首先指出当前V2A技术的三大瓶颈:为攻克这些问题,PrismAudio构建了一个全新框架,首次将强化学习(RL)与专业化思维链(CoT)深度结合。其创新之处在于:PrismAudio的最大亮点是将“全面”的思维链拆分为四个专业化、模块化的子思维链,每个子链专注一个感知维度:这种设计如同组建专家团

2026-04-01 10:02:58  |  4 阅读

加州理工团队开发高效压缩AI模型技术

由加州理工学院的计算机科学家兼数学家巴巴克·哈西比领导的研究小组声称,他们已经成功开发出一种大语言模型,能够在不影响性能的前提下显著减小模型体积。 这家名为PrismML的公司周二宣布结束隐身模式,并将其1-bit技术模型开源,供公众使用。 哈西比表示,PrismML开发了一种极致的压缩技术,使AI可以在手机、笔记本电脑和其他设备上本地运行,同时也能帮助数据中心以更少的资源完成更多任务,并降低能源成本。 该公司的首席执行官哈西比说:“我们花费了多年时间来发展压缩神经网络而不损失其推理能力所需的数学理论。”

2026-04-01 02:54:40  |  5 阅读