标签

AI前沿动态:OpenAI策略调整,大模型与智能体技术并行发展

发布时间:2026-04-28 19:22来源:微信阅读:5

• OpenAI与微软的合作关系迎来重大调整,OpenAI现在可在微软之外的云平台提供服务,并已确认模型即将登陆AWS Bedrock,标志着其分发策略的扩展。此次调整也意味着微软对OpenAI IP的独家授权终止。

• GPT-5.5模型正式推出,在多项社区评测中展现出显著性能提升,尤其在某些高难度编码任务上表现突出,但在综合性评测中并非全面领先。值得关注的是,GitHub Copilot将转向基于使用量的计费模式,Codex模型的经济模型也愈发清晰,预示着AI开发成本管理的重要性日益提升。

• 中国大模型力量崛起,小米MiMo-V2.5(包括Pro版)和Kimi K2.6等模型相继发布或更新,这些模型普遍具备百万级长上下文能力、专注于Agent应用和多模态交互,并积极拥抱开源策略。中国实验室在大模型开源和Agent导向系统方面展现出强劲势头。

• 智能体(Agent)技术持续演进,多智能体协调和本地化Agent工具成为焦点。Sakana AI的Conductor模型通过强化学习实现多模型编排,显著提升了任务完成效率。同时,结合WebGPU和本地化运行的浏览器Agent、Devin for Terminal等本地优先工具的出现,使得Agent应用更加灵活和高效。

• 基础设施和系统优化方面,谷歌推出了专为训练和推理优化的TPU v8芯片。长上下文模型处理中的KV缓存优化成为关键技术,例如vLLM对DeepSeek V4的支持以及FA3两级累积修复,显著提升了长文本检索性能。AI评估方法也从单纯准确率转向对成本、真实世界表现和检索质量的综合考量。

OpenAI近日宣布对其与微软的合作关系进行调整。OpenAI首席执行官Sam Altman表示,虽然微软仍将是其主要云合作伙伴,但OpenAI现在被允许将其产品推广至所有云平台。这项更新将OpenAI的产品和模型承诺延长至2032年,收入分享协议则延续至2030年。这一变化的关键含义在于,OpenAI今后可通过Google TPU、AWS Trainium以及AWS Bedrock等平台分发其模型,同时微软对OpenAI知识产权的授权也将变为非独占性。亚马逊AWS的首席执行官Andy Jassy已证实,OpenAI模型将在未来几周内登陆AWS Bedrock服务,标志着OpenAI在市场分发上迈出重要一步。

与此同时,OpenAI推出了GPT-5.5模型,并在多项社区评估中展现了其能力。在WeirdML的无思考模式(no-thinking)测试中,GPT-5.5的得分达到67.1%,相较于GPT-5.4的57.4%有显著提升,但仍略低于Opus 4.7的76.4%(且Opus 4.7使用更少的tokens)。LMSYS Arena的评估结果显示,GPT-5.5在代码竞技场中排名第九,文档处理排名第六,文本处理排名第七,数学能力排名第三,搜索能力排名第二,视觉能力排名第五,专家竞技场排名第五。虽然GPT-5.5在某些高难度编码任务上(如GPU内核开发)获得开发者正面反馈,但也存在“压缩式思维链(CoT)泄露”或无思考模式下输出格式不正确的问题。

在开发者经济方面,GitHub宣布其Copilot服务将从6月1日起转向基于使用量的计费模式。这一转变预示着,随着智能体(Agentic)工作流消耗更多运行时资源,成本考量将变得更加重要。Codex模型的用量乘数也随之明确:GPT-5.4快速模式为2倍,GPT-5.5快速模式为2.5倍,而5.4-mini和GPT-5.3-Codex则显著便宜。Sam Altman强调,即使按20美元计费,Codex仍具有强大的价值。此外,OpenAI还开源了Symphony,这是一个将问题追踪器与Codex智能体连接起来的编排层,实现“发现问题→智能体处理→代码审查→人工审核”的自动化流程。

小米近日开源了MiMo-V2.5-Pro和MiMo-V2.5模型,均基于MIT许可协议发布,并支持100万个tokens的上下文窗口。其中,Pro模型被定位为复杂智能体和编码模型,而较小的MiMo-V2.5则是一个原生全模态智能体。社区分析指出,MiMo-V2.5-Pro的总参数量约为1万亿,激活参数量约420亿,在27万亿个tokens上进行FP8训练;MiMo-V2.5的总参数量约3100亿,激活参数量约150亿,在48万亿个tokens上训练,采用了积极的交错式SWA/全局注意力机制,且没有共享专家。小米还为开发者提供了100万亿tokens的算力支持。vLLM和SGLang/vLLM已迅速跟进,提供了对MiMo-V2.5的零日推理支持。

Kimi K2.6模型在市场关注度和部署方面持续保持领先地位,近期登顶OpenRouter周榜。该模型被描述为适用于编码和长周期智能体的强大工具,甚至可扩展至同时协调300个子智能体,跨越4000个协调步骤。尽管Kimi在Hermes平台上的速度可能慢于DeepSeek V4,但它在修复某些V4无法解决的Bug方面展现了独特优势,引发了社区对速度与质量权衡的讨论。

中国大模型领域展现出一种更广泛的趋势,即各大实验室正积极推动“开放(或准开放)”、智能体导向和长上下文系统。例如,Qwen 3.6 Flash、DeepSeek V4/Flash以及GLM-5.1等模型都在积极推广其能力。一个反复出现的主题是,较小、成本更低的模型变体在实际智能体基准测试中往往能超越其更大型的同类产品,这表明在实用性上,模型的效率和针对性优化比单纯的规模扩张更具优势。

在智能体技术领域,Sakana AI Labs推出了引人注目的多智能体成果——7B Conductor模型。该模型通过强化学习进行训练,其核心功能是编排一组前沿模型,而非直接解决任务。Conductor模型能够动态决策调用哪个智能体、分配什么子任务以及暴露哪些上下文信息。据报道,它在LiveCodeBench上达到了83.9%的准确率,在GPQA-Diamond上达到87.5%,均超过了其池中任何单一工作智能体的表现。这一成果被强调为“AI管理AI”以及递归式自选择,为测试时扩展带来了新的可能性。

本地和混合智能体方案日益成熟。多篇文章展示了在本地运行的编码/助手堆栈。例如,有开发者演示了通过LM Studio/Ollama/llama.cpp在本地运行Pi智能体和Gemma 4 26B A4B模型。谷歌Gemma团队展示了一个完全本地运行的浏览器智能体,该智能体利用Gemma 4和WebGPU技术,实现了浏览历史、标签页管理和页面摘要等原生工具调用功能。Cognition公司推出了Devin for Terminal,这是一款本地shell智能体,可将任务无缝切换至云端处理,提供了混合工作流的灵活性。

智能体的人机工程学和框架也在不断演进。Hermes在这一领域表现强劲,其智能体存储库已超越Claude Code。原生视觉支持也成为其默认功能。更广泛的生态系统正在弥补缺失的环节,例如Cline Kanban现在支持为每个任务卡分配不同的智能体/模型。Future AGI开源了一个用于自我改进智能体的评估/优化堆栈。有观点认为,多智能体协作(MCP)的最佳实践在于通过明确的@提及加载或子智能体范围内的工具分配来实现,而非不加区分地连接服务器。

谷歌在Cloud Next大会上宣布,其TPU v8芯片被划分为专用于训练的8t版本和专用于推理的8i版本,这传递了一个重要的架构信号。据称,v8t的训练速度比上一代快2.8倍,而v8i的推理性能每美元提升了80%。有评论强调,这是谷歌首次根据工作负载对定制芯片进行分拆。据悉,OpenAI、Anthropic和Meta等业界巨头均已采购TPU容量。

DeepSeek V4模型在推理基础设施堆栈中的支持正迅速成熟。vLLM项目宣布将支持DeepSeek V4基础模型,这需要配置一个`expert_dtype`字段来区分FP4指令模式和FP8基础模式。在vLLM 0.20.0版本中,主要亮点包括对DeepSeek V4的支持、将FA4设为默认的MLA预填充、TurboQuant 2位KV缓存,以及在Blackwell架构上针对DeepSeek定制的MegaMoE路径。

KV缓存优化仍然是热门研究领域。关于长上下文瓶颈和KV策略的讨论热烈。有专家总结了处理长上下文的三个主要途径:本地/滑动注意力、交错式局部-全局注意力,以及通过GQA/MLA/KV绑定/量化减少每全局层的KV大小。在实现层面,vLLM与红帽/AWS合作发布了FP8 KV缓存的深度解析,其中对FA3两级累积的修复将128k“大海捞针”任务的性能从13%提升至89%,同时保持了FP8的解码速度优势。社区也有声音对DeepSeek V4在KV方面的权衡,以及与HiSparse等更侧重卸载的方法相比的优劣进行了探讨。

开放世界评估正获得更多关注。有研究者指出,大多数智能体基准测试过度拟合于可自动验证的任务,而重要的前沿领域在于开放世界、不确定和非完全可验证的工作。相关讨论将此与持续学习、记忆存储和自适应数据系统联系起来。

成本感知型智能体评估日益重要。一项关于SWE-bench Verified上编码智能体开销的新研究显示,智能体编码可能比聊天/代码推理消耗多达1000倍的tokens,且在相同任务上,不同运行之间的消耗可能存在30倍的差异,而更高的开销并不一定能单调提升准确性。这与Copilot的定价模式变化以及对不可控智能体运行经济性的担忧相符。

新的基准测试和特定领域评估工具不断涌现。LlamaIndex推出了ParseBench,包含2000个经过验证的企业文档页面,用于解析智能体。AgentIR通过将推理轨迹嵌入到查询中,为研究智能体重新构建了检索机制,AgentIR-4B在BrowseComp-Plus上达到了68%的准确率,优于更大的传统嵌入模型(52%)。此外,针对前沿模型的一些基准快照也已发布,例如Opus 4.7在GSO上以42.2%的成绩领先。然而,更重要的信号是方法论上的转变:越来越多的人开始衡量运行时成本、检索质量和开放世界行为,而不仅仅是最终答案的准确性。