AI日报|每日3分钟掌握人工智能最新动态(2026-05-28)

发布时间：2026-05-28 08:45阅读：11

时间：2026-05-28 08:17 · 共收录 10 条热点 · 关键词：支付宝推出全球首个Token、AI、科技

支付宝推出全栈AI原生支付解决方案，发布全球首个Token Pay服务及AI钱包，结合此前上线的AI付与AI收功能，构建起涵盖授权、支付、结算、监管的完整智能体经济体系。AI付已完成3亿笔智能体支付订单，兼容95%主流智能体框架，资损率降低至亿分之一级别；AI收则实现全网Agent自动采购商家服务，个人技能可通过Agent轻松变现。

• 详情：https://mp.weixin.qq.com/s/cMVuGZyRzByYhODmMlRc5Q

小米大模型 MiMo-V2.5 系列宣布API永久降价，最高降幅达99%，Token Plan套餐用量提升至原5-8倍。与此同时，自4月28日启动的”百万亿Token创造者激励计划“提前结束，累计发放100万亿Token，申请人数超54.8万。现有Token Plan用户额度全部重置，V2.5-TTS系列继续限时免费。

• 详情：https://mp.weixin.qq.com/s/PuJcTCUO0MjB2V1D-V0_oA

快手正式开源多模态大模型 Keye-VL-2.0-30B-A3B ，首次将 DSA 稀疏注意力机制应用于多模态理解领域，支持 256K 超长上下文，完成长视频时序因果推理。模型在 TimeLens 视频理解基准测试中部分指标超越 Gemini 2.5 Pro 与 Gemini 3 Flash，首次实现 Agent 协作能力，覆盖代码、工具调用与搜索等复杂任务场景。

• 详情：https://mp.weixin.qq.com/s/gomgqFAZrdbJFQlOfSJxpQ

昨日在支付宝AI生态大会现场，不同于多数“技术改变一切“的开场方式，蚂蚁集团CEO韩歆毅第一句话就阐明了核心观点：

AI会带来许多变革，但归根结底，AI服务于人，人类掌握最终决策权。

他明确指出，Agent时代并非“AI推翻一切重来”，商业的本质未发生变化，但参与交易、执行决策的主体已发生根本性转变。

• 详情：https://www.qbitai.com/2026/05/425881.html

从NeRF到83D Gaussian Splatting，再到VGGT、π³等前馈式3D重建模型，整个行业发展速度显著加快——仅需几张图片，即可在数秒内重建完整3D场景。

但问题也恰恰在这里。这些模型虽已能理解三维世界，却还无法修改三维世界。你可以让它重建一个房间，却难以真正指令它：

将椅子移至窗边，删除中间那张椅子，把灰色皮沙发换成白色长毛沙发。

• 详情：https://www.qbitai.com/2026/05/425870.html

没错，虽然CEO奥特曼每日活跃于各大社交平台，但没想到：

仅找一个合适的CMO（首席营销官），他们就花费了整整半年时间。

直到现在，他们终于找到了那个人—— Colin Fleming 。

插一则纽约时报获悉的小道消息，在确定Colin Fleming之前，OpenAI接触的CMO候选人背景一个比一个显赫：

优步总裁Jill Hazelbaker、苹果前设计总监Jony Ive的公关负责人S...

• 详情：https://www.qbitai.com/2026/05/425857.html

过去两年，具身智能的资源与研究重点高度集中于视觉感知，致力于“让机器人看懂世界”。

但在真实精细化操作场景中，核心挑战往往不在视觉识别本身，而在物理接触后的交互环节。

能够完成USB接口的视觉对准，却难以判断插入过程中的受力变化与合适力度；能够夹起衣物，却无法实时感知布料的滑移状态与张力分布，难以实现精准的褶皱整理。

• 详情：https://www.qbitai.com/2026/05/425660.html

Codex自家程序员，直接把 Codex「自我蒸馏」的秘笈给公开了...

只需将一段提示词，直接复制粘贴进Codex。

它就会主动查阅你的历史会话，发现你一直在手动重复做的事，然后替你将这些工作流打包成可复用的工具。

这位Codex成员可以说是相当大方，经网友反馈后，他还立即迭代出一个2.0版本。

OpenAI总裁Greg Brockman也亲自赶来转发点赞了。

• 详情：https://www.qbitai.com/2026/05/425810.html

“1%是我写的，99%是Agent写的。”

梦晨发自凹非寺量子位 | 公众号 QbitAI

DeepSeek研究员陈德里，在个人博客更新一篇研究综述论文。

用的是他自己的技能 DeliAutoResearch ，DeepSeek-V4-Pro研究和写作，GPT-Image2画图。

• 详情：https://www.qbitai.com/2026/05/425523.html

当你将一段长达9分钟、在“晴空万里”与“冰天雪地“间剧烈切换的冰岛旅行Vlog输入给大模型，并要求它制作一份旅行攻略时，常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。

但实际上，长视频理解不仅需要识别每一帧里出现了什么，还要在连续的时序流动中捕捉因果链条。

而作为快手自研多模态大语言模型， Keye-VL-2.0-30B-A3B 展现出了截然不同的理解能力。

• 详情：https://www.qbitai.com/2026/05/425600.html

← 上一篇：AI付费趋势下的机遇与挑战：从40万收入到政策监管下一篇：AI进化的底层逻辑 →