本周人工智能领域重要动态速览
7月1日,人工智能公司Anthropic推出Claude Sonnet系列最新成果Sonnet 5,定位为该产品线中智能体能力最突出的版本。该模型具备任务规划、浏览器操作和终端工具调用等功能,能够独立执行复杂的多步骤工作流程。在性能表现上接近旗舰级Opus 4.8,但定价策略更为亲民,8月31日前每百万输入token收费2美元,每百万输出token收费10美元,此后恢复至3美元和15美元的标准价格。
相较于前代产品Sonnet 4.6,Sonnet 5在推理能力、工具调用、代码编写和知识处理等智能体应用场景中实现显著提升。目前已集成至Claude Code和Claude Platform平台,开发者可通过API接口指定模型名称进行调用。基础版和专业版用户已陆续收到更新推送,Sonnet 5已被设置为默认模型选项。
这是Anthropic在过去十个月间第三次更新旗舰编程模型。Sonnet 5与同日解封的Fable 5形成完整的产品组合,前者覆盖中端价格区间,后者面向高端智能体应用场景。Anthropic同步在Claude Code中增加了后台智能体通知和数据可视化功能,持续完善智能体工具生态。
Sonnet 5的发布表明Anthropic正在加快模型迭代速度,通过差异化的定价策略满足从轻量级到旗舰级的全链条需求。在Opus和Fable占据高端市场的格局下,Sonnet承担起主流开发者场景中性价比平衡的角色,这与OpenAI的Sol/Terra/Luna三档产品布局形成正面竞争。
6月30日,美团推出新一代万亿参数大规模模型LongCat-2.0并实现开源开放。模型总参数量达1.6万亿,运行时平均激活约480亿参数,动态激活范围在330亿至560亿之间,原生支持100万token的超长上下文窗口。LongCat-2.0是业界首个在五万卡国产计算集群上完成完整训练与推理流程的万亿参数模型,从零开始进行预训练,预训练数据规模超过30万亿token。
在架构设计上,LongCat-2.0采用LSA稀疏注意力机制与零计算专家模块,配备ScMoE及MOPD多专家融合方案,分为Agent、Reasoning、Interaction三组专家模块。评测结果显示SWE-bench Pro得分59.5分,SWE-bench Multilingual得分75.2分。预览版本此前通过OpenRouter平台发布后,月度调用量已进入全球前三名。
美团在国产算力领域的探索始于2023年,三年间从千卡规模起步逐步攻克算子适配、通信优化和大规模训练稳定性等核心技术挑战。LongCat-2.0的完整训练流程验证了国产算力集群在万亿参数级别的实用价值,为降低对进口GPU的依赖提供了工程实践依据。
LongCat-2.0的发布标志着国产算力已具备支撑万亿参数模型全流程训练的能力。在进口GPU供应受限的背景下,美团从互联网平台向基础设施和基础模型双向拓展的策略,与其他头部企业形成差异化发展路径。
面壁智能推出全球首个完全由人工智能编写、无人力代码介入的生产级大规模模型预训练框架ForgeTrain。该框架针对特定模型和硬件配置自动生成专用训练代码,采用四阶段Harness优化流程。
基准测试结果表明,ForgeTrain在8小时内即可追平英伟达Megatron-LM的性能表现,在1.5至2天内实现稳定超越,模型FLOPS利用率提升约8%至10%。框架具有良好的迁移能力,可适配不同模型和硬件,已在MiniCPM4-0.5B和8B模型上完成验证,支持H100和昇腾NPU硬件平台。
面壁智能此前已使用ForgeTrain在华为昇腾芯片上完成MiniCPM5-1B模型的预训练工作。该框架的开源发布意味着人工智能辅助基础设施开发从实验阶段迈入生产级应用阶段,训练代码的自动生成与优化不再需要人类工程师深度参与。
ForgeTrain的实践案例表明,人工智能不仅能在应用层替代人力劳动,在基础设施层同样具备自主编程和优化的能力。这一方向若得到充分验证和推广应用,可能改变大规模模型训练框架的开发模式,从人工编写转向人工智能自动生成。
Google DeepMind发布两款新型生成式人工智能模型,分别是Nano Banana 2 Lite和Gemini Omni Flash。Nano Banana 2 Lite是该系列中速度最快、成本最低的图像生成模型,文本到图像生成仅需4秒,每千分辨率图像成本0.034美元,响应延迟较前代产品降低约40%。
模型已上线Google AI Studio、Gemini API及消费级产品,包括搜索功能中的AI Mode和Gemini应用。千分辨率(1024x1024像素)输出消耗1120个token,适合需要频繁修改或批量生成的应用场景。
Gemini Omni Flash定位为多模态生成模型,与Nano Banana 2 Lite共同接入Gemini企业智能体平台,为创作者提供生成式人工智能能力。两款模型面向企业开发者提供API接口,按照实际用量进行计费。
Google在生成式人工智能领域的策略正从追求单一模型能力上限,转向构建覆盖不同响应延迟和成本档位的产品矩阵。Nano Banana 2 Lite以极低延迟和成本切入高频迭代场景,与OpenAI和Anthropic的高端模型形成错位竞争格局。
7月2日,GitHub正式在Copilot中上线Kimi K2.7 Code,这是Copilot模型选择器中首次出现的开源权重模型。该模型由GitHub托管于Microsoft Azure平台,按照供应商列表价格以用量计费。
K2.7 Code正逐步向Copilot Pro、Pro+和Max计划用户推送,用户可在Visual Studio Code中选择该模型。GitHub表示将在未来数周内将支持范围扩展至Copilot Business和Enterprise版本。模型在编程任务上的表现使其成为闭源模型之外的可行的替代选择。
此前Copilot模型选择器仅提供OpenAI等闭源模型选项。K2.7 Code的接入打破了这一限制,意味着开源权重模型在编程辅助场景中已达到与闭源模型相当的质量水平。
开源权重模型进入主流编程工具的模型选择器,反映出开源模型在特定垂直领域的能力已获得平台级认可。这对降低开发者使用人工智能编程工具的成本具有直接意义,也可能影响其他编程工具厂商的模型接入策略。
6月29日,Cursor推出原生iOS应用公开测试版,所有付费计划用户可从App Store下载安装。开发者可在手机上启动始终在线的云端智能体,或远程控制电脑端智能体。
云端智能体在隔离虚拟机环境中运行,可自动迭代生成可直接合并的PR,并输出演示效果、截图和日志。本地与云端智能体支持双向切换,移动端Composer 2.5调用目前享受75%折扣优惠,活动持续至7月5日。锁屏Live Activities和推送通知实时更新智能体状态,在任务完成或需要人工输入时提醒用户。
应用支持语音输入、斜杠命令和前沿模型选择功能。开发者离开电脑后仍可通过手机监控智能体运行进度,在需要人工决策时及时介入,实现移动端与桌面端的工作流程衔接。
人工智能编程工具从桌面端向移动端延伸,反映出智能体工作模式正在改变开发者的日常节奏。当智能体能够自主运行并仅在决策点请求人工介入时,移动端从辅助工具变为必要的监控和审批界面。
7月2日,昆仑万维发布天工3.2版本,核心功能为Skywork Tags。该功能允许用户将人工智能智能体直接接入Slack、飞书、钉钉、Discord、Telegram等即时通讯工具,以团队成员身份在群聊中参与协作。
Skywork Tags采取不迁移上下文而迁移智能体的设计思路,智能体进入用户现有的工作环境,持续吸收团队上下文信息。团队在原有工作群中@Skywork参与讨论,无需切换窗口或迁移数据。昆仑万维表示,共享版智能体持续吸收多样上下文后表现超越精心调教的个人版,团队最终完全改用共享版。
该功能不要求改变团队既有的工作方式,智能体的知识随使用不断积累。与多数要求用户将上下文迁移至新平台的智能体产品不同,Skywork Tags的设计逻辑是将人工智能适配到人类已有的协作流程中,而非要求用户适应新的工作方式。
Skywork Tags的产品逻辑反映出智能体设计思路的分化。一种方向是构建独立工作台要求用户迁移数据和习惯,另一种是嵌入现有工具链适应用户既有的工作习惯。后者在降低采用门槛方面具有明显优势,但上下文质量和可控性是长期需要解决的问题。
据Bloomberg报道,Meta正计划推出云基础设施业务Meta Compute,对外提供人工智能计算能力和模型访问权限,直接与AWS、Google Cloud和Azure展开竞争。
Meta已承诺未来几年投入1829亿美元建设人工智能基础设施,其中俄亥俄州数据中心将于今年上线。新业务由基础设施主管Santosh Janardhan和超级智能实验室负责人Daniel Gross等人主导。Meta拥有大量自建算力,在满足内部训练需求后存在闲置产能,云服务业务可将这些产能转化为收入来源。
消息公布后Meta股价大涨10%。投资者将算力变现视为缓解高额资本支出担忧的积极信号。Meta进入云计算市场意味着该赛道竞争进一步加剧。
Meta从社交媒体公司向人工智能基础设施提供商的延伸,反映出算力正在成为新的基础设施商品。当自建算力规模超过内部需求时,出售闲置产能是自然的商业选择,但Meta在企业服务和云市场缺乏AWS和Azure的深厚客户基础,竞争壁垒的建立将依赖于价格优势和模型能力而非传统云服务优势。