AI日报|每日3分钟掌握人工智能最新动态(2026-05-28)
时间:2026-05-28 08:17 · 共收录 10 条热点 · 关键词:支付宝推出全球首个Token、AI、科技
支付宝推出全栈AI原生支付解决方案,发布全球首个Token Pay服务及AI钱包,结合此前上线的AI付与AI收功能,构建起涵盖授权、支付、结算、监管的完整智能体经济体系。AI付已完成3亿笔智能体支付订单,兼容95%主流智能体框架,资损率降低至亿分之一级别;AI收则实现全网Agent自动采购商家服务,个人技能可通过Agent轻松变现。
• 详情:https://mp.weixin.qq.com/s/cMVuGZyRzByYhODmMlRc5Q
小米大模型 MiMo-V2.5 系列宣布API永久降价,最高降幅达99%,Token Plan套餐用量提升至原5-8倍。与此同时,自4月28日启动的”百万亿Token创造者激励计划“提前结束,累计发放100万亿Token,申请人数超54.8万。现有Token Plan用户额度全部重置,V2.5-TTS系列继续限时免费。
• 详情:https://mp.weixin.qq.com/s/PuJcTCUO0MjB2V1D-V0_oA
快手正式开源多模态大模型 Keye-VL-2.0-30B-A3B ,首次将 DSA 稀疏注意力机制应用于多模态理解领域,支持 256K 超长上下文,完成长视频时序因果推理。模型在 TimeLens 视频理解基准测试中部分指标超越 Gemini 2.5 Pro 与 Gemini 3 Flash,首次实现 Agent 协作能力,覆盖代码、工具调用与搜索等复杂任务场景。
• 详情:https://mp.weixin.qq.com/s/gomgqFAZrdbJFQlOfSJxpQ
昨日在支付宝AI生态大会现场,不同于多数“技术改变一切“的开场方式, 蚂蚁集团CEO韩歆毅 第一句话就阐明了核心观点:
AI会带来许多变革,但归根结底,AI服务于人,人类掌握最终决策权。
他明确指出,Agent时代并非“AI推翻一切重来”,商业的本质未发生变化,但参与交易、执行决策的主体已发生根本性转变。
• 详情:https://www.qbitai.com/2026/05/425881.html
从NeRF到83D Gaussian Splatting,再到VGGT、π³等前馈式3D重建模型,整个行业发展速度显著加快——仅需几张图片,即可在数秒内重建完整3D场景。
但问题也恰恰在这里。这些模型虽已能理解三维世界,却还无法修改三维世界。你可以让它重建一个房间,却难以真正指令它:
将椅子移至窗边,删除中间那张椅子,把灰色皮沙发换成白色长毛沙发。
• 详情:https://www.qbitai.com/2026/05/425870.html
没错,虽然CEO奥特曼每日活跃于各大社交平台,但没想到:
仅找一个合适的CMO(首席营销官),他们就花费了整整半年时间。
直到现在,他们终于找到了那个人—— Colin Fleming 。
插一则纽约时报获悉的小道消息,在确定Colin Fleming之前,OpenAI接触的CMO候选人背景一个比一个显赫:
优步总裁Jill Hazelbaker、苹果前设计总监Jony Ive的公关负责人S...
• 详情:https://www.qbitai.com/2026/05/425857.html
过去两年,具身智能的资源与研究重点高度集中于视觉感知,致力于“让机器人看懂世界”。
但在真实精细化操作场景中,核心挑战往往不在视觉识别本身,而在 物理接触后的交互环节 。
能够完成USB接口的视觉对准,却难以判断插入过程中的受力变化与合适力度;能够夹起衣物,却无法实时感知布料的滑移状态与张力分布,难以实现精准的褶皱整理。
• 详情:https://www.qbitai.com/2026/05/425660.html
Codex自家程序员,直接把 Codex「自我蒸馏」 的秘笈给公开了...
只需将一段提示词,直接复制粘贴进Codex。
它就会主动查阅你的历史会话,发现你一直在手动重复做的事,然后替你将这些工作流打包成可复用的工具。
这位Codex成员可以说是相当大方,经网友反馈后,他还立即迭代出一个2.0版本。
OpenAI总裁Greg Brockman也亲自赶来转发点赞了。
• 详情:https://www.qbitai.com/2026/05/425810.html
“1%是我写的,99%是Agent写的。”
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI
DeepSeek研究员 陈德里 ,在个人博客更新一篇研究综述论文。
用的是他自己的技能 DeliAutoResearch ,DeepSeek-V4-Pro研究和写作,GPT-Image2画图。
• 详情:https://www.qbitai.com/2026/05/425523.html
当你将一段长达9分钟、在“晴空万里”与“冰天雪地“间剧烈切换的冰岛旅行Vlog输入给大模型,并要求它制作一份旅行攻略时,常规的视觉大模型通常只能给出一份基于字幕和画面标签拼凑的“流水账”。
但实际上,长视频理解 不仅需要识别每一帧里出现了什么,还要在连续的时序流动中捕捉因果链条 。
而作为快手自研多模态大语言模型, Keye-VL-2.0-30B-A3B 展现出了截然不同的理解能力。
• 详情:https://www.qbitai.com/2026/05/425600.html