多模态AI与人类偏好对齐研究学术讲座

发布时间：2026-04-15 15:29阅读：9

讲座信息

🎤 主讲人：王宇博士，

字节跳动首席研究员

📰演讲题目：多模态AI与人类偏好的对齐策略：从语言理解到视觉生成

⏰ 时间：2026年4月16日（周四）9:30-10:30

📆日期：9:30-10:30，北京时间

📍 在线Zoom会议链接：

https://hkust-gz-edu-cn.zoom.us/j/94595919503?pwd=tRTIRt2xNithvVwsa5OiyOu0Bli9q4.1

Zoom会议号：945 9591 9503

密码：ait

讲座内容

如何构建能够跨模态感知世界、生成符合人类意图的内容、并在数亿用户规模下可靠运行的AI系统？本次演讲将围绕三个相互关联的核心方向展开研究探讨：跨模态表示学习、偏好对齐生成模型以及以创作者为中心的个性化AI。首先，我将阐述统一语言模型预训练和多模态神经网络架构如何为理解和生成的融合奠定基础，并介绍相关系统已部署于微软必应搜索、服务超过7000万用户的情况。随后，我将展示我们最新的研究成果Diffusion-LPO（ICLR 2026），该工作通过Plackett-Luce模型将直接偏好优化从成对排名扩展到列表排名，在文本到图像生成、图像编辑和个性化对齐等任务中始终优于成对基准方法。最后，我将概述未来的研究规划，包括细粒度视频-语言对齐、多目标偏好优化、高效扩散推理以及面向生态系统健康的多样性感知生成。在演讲过程中，我还将讨论这些模型在互联网规模部署时面临的挑战——分布偏移、指标不匹配和对齐脆弱性——以及实际部署约束如何驱动基础研究问题的产生。

主讲人简介

王宇博士

字节跳动首席研究员

王宇博士现任字节跳动首席研究员，负责内容生态与生成式AI的多模态大模型研究。他拥有耶鲁大学计算机科学博士学位和新加坡国立大学工程学士学位。此前，他曾担任微软研究院高级研究员以及三星研究美国实验室的研究科学家。他的研究兴趣涵盖多模态大语言模型、偏好对齐生成以及个性化内容智能，相关系统已在微软必应（7000万+用户）和字节跳动（数亿用户）实现规模化生产部署。他已在ICLR、NeurIPS、ICML、AAAI、ACL等顶级学术会议发表35篇以上论文（其中26篇为第一作者），Google Scholar引用量超过4200次，H指数为17，并拥有4项美国授权专利。王宇博士曾获2024年国家自然科学基金优秀青年科学基金（海外）资助。

← 上一篇：地球日聚焦：人工智能驱动绿色智造，实践低碳生产使命下一篇：AI行业一周要闻：国产AI芯片获国际顶会认可;斯坦福报告称中美大模型差距已消失 →