标签

AI行业日报|2026年6月18日要闻速递

发布时间:2026-06-18 09:14阅读:1

🔔1、SpaceX收购Cursor后发布1.5万亿参数通用代码大模型

💡核心要点:刚完成600亿美元收购的Cursor在Compile大会发布超1.5万亿参数模型,依托SpaceX十万卡算力从零预训练,算力规模提升10-20倍。模型不局限代码能力,可像工程师自主规划、测试软件,训练已启动,数周内上线,后续还将推出面向智能体的全链路开发平台Origin。

📌查看原文

🔔2、微信支付推出AI专属隔离卡,授权Agent自动消费

💡核心要点:微信支付上线AI专属卡,资金与主账户完全隔离,用户自主设置额度。可授权WorkBuddy等智能体完成美团等消费服务,每笔扣款需用户手机二次确认,打造安全可控的AI自动化支付钱包,加速消费类智能体商业化落地。

📌查看原文

🔔3、阿里发布HappyOyster世界模型,一句话生成可交互3D空间

💡核心要点:阿里ATH推出HappyOyster“快乐生蚝”世界模型,输入图文即可生成具备物理一致性3D场景,支持WASD第一人称漫游。具备漫游、导演、创造、分享四大功能,可实时插入图文语音修改剧情;当前漫游与导演模式存在卡顿,商业化开放时间暂未公布。

📌查看原文

🔔4、智谱GLM-5.2开源,百万上下文+代码能力登顶开源榜单

💡核心要点:智谱发布GLM-5.2并采用MIT开源协议,支持1M无损超长上下文,Code Arena评测位列开源第一、逼近Claude Opus。通过IndexShare、改进MTP优化推理,首日适配华为昇腾等八大全国产算力,配套API上线,下一阶段目标打造完全自治智能体系统。

📌查看原文

🔔5、小米MiMo Claw正式版上线,联动金山办公推出分层订阅

💡核心要点:小米MiMo Claw搭载MiMo-V2.5-Pro模型,支持百万上下文、单次千次工具调用,打通金山Office全链路,Token消耗降低40%-60%。免费用户每日4小时使用时长,上线14.9元起月度订阅套餐,适配办公、多步骤复杂任务场景。

📌查看原文

🔔6、蚂蚁CodeFuse推出EGSS推理优化框架,大幅减少算力消耗

💡核心要点:蚂蚁CodeFuse在ACL发布EGSS框架,依靠工具熵定位推理关键节点,仅重点路径投入算力,淘汰全路径遍历模式,推理开销显著下降,配套多轨迹合成测试套件提升代码Agent准确率。

📌查看原文

🔔7、昆仑万维天工3.1更新设计画布与多智能体并行工作流

💡核心要点:天工3.1新增Skywork Design无限设计画布,统一多页面品牌规范;Dynamic Workflows可自动拆分任务,调度数十个并行子Agent并设置验证节点,支持断点续跑。上线一月营收增长三倍,国内外同步开放更新。

📌查看原文

🔔8、Genesis发布通用人形机器人Eno,折叠躯干+灵巧机械手

💡核心要点:Genesis推出通用机器人Eno,三段可折叠轮式躯干,自研22自由度灵巧手集成传感设备,可操作人类工具完成移液、缠线等任务。配套GENE世界模型、仿真训练工具,整机尚处早期原型,客户部署推迟至2026年底。

📌查看原文

🔔9、DeepMind论文指出Transformer存在先天状态追踪缺陷

💡核心要点:DeepMind最新论文提出Transformer架构难以持续追踪长期状态,思维链仅治标且大幅抬升推理成本。团队认为MAMBA、RWKV等循环序列架构更适合持续状态维护,为下一代基础模型架构迭代提供新思路。

📌查看原文

🔔10、微软发布Copilot Cowork企业智能体,对标Claude Cowork

💡核心要点:微软推出Copilot Cowork面向企业智能体市场,成本较同类产品低30%-40%,继承Office全量安全权限,支持长周期复杂任务。微软计划在Azure接入DeepSeek V4模型进一步压缩推理成本,采用弹性按量计费模式。

📌查看原文

🔔11、OpenAI筹备GPT-Bidi双向语音模型,支持实时打断对话

💡核心要点:OpenAI研发新一代双向语音模型GPT-Bidi,采用双向架构,可实时捕捉用户插话、打断指令,动态调整输出节奏,消除语音对话卡顿,分速度、精度档位适配不同交互场景。

📌查看原文

🔔12、OpenAI、Anthropic同步收紧实名验证,匿名AI时代落幕

💡核心要点:两大头部厂商同步更新隐私与登录规则,消费端、API开发者均需实名核验,配套年龄、活体检测机制,遏制AI滥用与虚假操作,明确智能体执行行为权责,行业监管合规门槛全面提升。

📌查看原文

🔔13、广东上线省级政务AI中枢“湾擎”,全省公务员通用

💡核心要点:全国首个省级政务智能中枢湾擎上线,基于腾讯WorkBuddy打造,沙箱隔离保障本地数据不出域,适配国产芯片,覆盖公文、检索六大政务场景,已通过可信Claw评估,即将在省直单位试点部署。

📌查看原文

🔔1、Open Code Review: 阿里开源AI代码审查工具

💡功能亮点来自阿里巴巴的AI代码审查命令行工具,结合工程确定性与AI Agent能力,面向Git变更做代码审查。通过确定性模块保证审查准确性,让Agent专注动态分析,输出带行级定位的结构化意见。支持本地CLI使用,可接入CI流水线,嵌入智能编码工作流,支持自定义规则与安全防护,是工程化的专业AI代码审查方案。

📌链接地址:https://github.com/alibaba/open-code-review

🔔2、EchoBird:AI部署管理平台

💡功能亮点:跨平台AI部署与应用管理桌面平台,解决AI工具部署难、配置碎片化问题。构建可复用模型中枢支持多模型源一次配置全局复用,提供自动安装排障、一键启动本地LLM、托管自建AI应用、统一管理应用等核心功能,形成"配置一次到处可用"闭环,基于Tauri+Rust实现,支持全平台覆盖。

📌链接地址:https://github.com/edison7009/EchoBird

💡论文摘要:基于LLM的智能体(agent)的性能由其基础模型以及介导其与环境交互的操作框架共同决定。由于不同模型展现出独特的行为,有效的操作框架设计本质上是模型特定的。然而,智能体的操作框架目前仍主要由人类专家设计,随着现代LLM日益多样化和快速发展,这种范式扩展性差。 在本文中,我们引入了Self-Harness,这是一种新范式,其中基于LLM的智能体无需依赖人类工程师或更强的外部智能体,即可改进其自身的操作框架。我们将Self-Harness实现为一个迭代循环,包含三个阶段:弱点挖掘(从执行轨迹中识别模型特定的失败模式);框架提案(生成与这些失败相关的多样化但最小化的框架修改);以及提案验证(仅在回归测试后才接受候选修改)。 我们在Terminal-Bench-2.0上,使用一个最小化的初始操作框架以及来自不同系列的三种基础模型(MiniMax M2.5、Qwen3.5-35B-A3B和GLM-5),实例化了Self-Harness。在这三种模型上,Self-Harness持续提升了性能,其中保留测试集上的通过率分别从40.5%提升到61.9%、从23.8%提升到38.1%以及从42.9%提升到57.1%。定性分析进一步表明,Self-Harness不仅仅是简单地添加通用指令,而是有效地将模型特定的弱点转化为具体、可执行的操作框架更改。这些结果预示着,基于LLM的智能体不仅是被其操作框架所塑造,还能参与重塑这些框架。 图1:智能体引导框架开发的三种范式比较:人工引导框架工程、元引导框架(使用更强的模型改进较弱的模型)和自我引导框架(智能体自我改进)。

📌 链接地址:https://arxiv.org/abs/2606.09498