ChatGPT与Codex合体:AI操作系统雏形初现?
摘要
OpenAI被曝计划将ChatGPT升级为集编程工具、AI Agent和更多商业化能力于一身的超级应用。这个新闻真正值得关注的,不是ChatGPT又增加了几个功能,而是Agent是否会成为下一代操作系统。
但我认为,现在就说AI进入"下半场"还太早。更准确地说,AI的开幕式可能刚刚结束,真正的大竞争还没有完全开始。
现在谈下半场,可能太快了
据Reuters引用Financial Times报道,OpenAI正计划对ChatGPT进行发布以来最大规模的改版,目标是将其打造为整合编程工具和AI Agent的超级应用,以提升收入,并为未来资本市场叙事做准备。
这个方向并不突然。
OpenAI官方过去一年已经把几块能力摆在台面上:Codex能读取代码库、修改文件、运行测试、提交PR;ChatGPT agent能使用浏览器、终端、API和连接器,在自己的虚拟电脑里完成跨工具任务;Codex app又把多Agent、CLI、IDE、Web和云端任务管理整合到同一个账号体系里。
所以所谓超级应用,表面看是产品合并,底层其实是一次操作系统试探。
它要验证的不是"聊天框还能回答多少问题",而是"AI能不能接管任务流程"。
腾讯姚顺雨近期在腾讯云AI产业应用大会上的判断也很重要。他把这称为"AI下半场":预训练和后训练让方法论越来越成熟后,真正困难的事情从"找到解决问题的方法",转向"找到值得解决的好问题"。
也就是说,他所说的下半场,不是简单说模型竞赛结束了,而是说AI的稀缺点开始转向context、真实场景和模型产品co-design。没有好的上下文和工具,Agent连点外卖都做不到。
这个判断有启发。
但我对"AI下半场"这个说法会更谨慎一点。
今天的AI产业也许仍在开幕式:模型能力还在高速跃迁,Agent的接口标准尚未稳定,算力成本还在剧烈变化,应用形态也远没有收敛。
规则还没定,选手还在入场,真正的大竞争还没有完全开始。
Codex的意义,不是让人人写代码
很多人看到ChatGPT和Codex合并,第一反应可能是:OpenAI判断Coding是最好的方向。
这个说法只对了一半。
我不认为未来人人都要写代码。大多数用户也许永远不会打开IDE,不会写脚本,不会提交PR。
但Coding对Agent的意义,不在于让人类都变成程序员,而在于让Agent自己拥有制造工具的能力。
人类之所以区别于其他生物,一个重要原因是开始使用语言、文字和工具。语言让人类协作,文字让知识跨越时间,工具让能力突破身体限制。
大模型开始用Coding的方式制造自己的工具,也许也是一个类似的里程碑。
如果一个Agent只靠自然语言推理,它每一步都要消耗token,每一次复杂任务都要重新理解、重新规划、重新执行。哪怕模型很强,这种方式也很贵,而且难以沉淀。
但如果Agent会写代码,它就可以把一类任务变成脚本、程序、自动化流程和可复用工具。
下一次再遇到类似任务,它不必从头推理,只需要调用已有工具、补少量参数、做少量检查。很多动作甚至不用再消耗大模型token,而是交给普通代码、普通计算和普通系统调用完成。
这才是Coding能力在token经济里的价值。它让Agent从"会回答问题"变成"会制造工具"。
从这个角度看,Codex不只是开发者工具,而是Agent自我扩展能力的基础设施。OpenAI把Codex往ChatGPT里合,并不只是为了服务程序员,而是在把聊天、推理、工具调用和代码执行放进同一个执行环境。
超级应用的功能,已经开始像操作系统
移动互联网时代的超级应用,本质上是服务入口。
微信聚合关系链、支付、内容、小程序、公众号、视频号、商家和群聊。用户打开微信,再自己选择服务。
AI时代的超级应用可能不是这样。
它更像一个任务调度层。用户给目标,Agent判断路径,读取上下文,选择工具,调用接口,执行代码,生成文件,检查结果,必要时再找人确认。
这已经覆盖了今天操作系统的大量功能。
文件管理、信息检索、应用调用、权限确认、自动化执行、代码运行、数据处理、内容生成、日程协同、甚至部分决策支持,都可以被Agent重新组织。
所以AI超级应用不是一个更大的App,而是一个更靠近操作系统的位置。
问题在于,这个操作系统的接入方式还没定。
未来外卖、打车、订票、购物、办公、金融、医疗、企业系统,到底是像微信小程序一样接入,还是像CLI、API、MCP、插件、脚本一样接入,现在不能急着下结论。
如果它走微信式路径,核心就是一个中心入口加生态接入。用户仍然在一个超级应用里完成服务调用,只是前台从页面点击变成自然语言。
如果它走CLI式路径,核心就不是页面,而是能力接口。Agent通过标准协议、权限系统和代码工具去调用各种服务,用户甚至不需要知道背后用了哪个应用。
长期看,真正强大的AI超级应用可能会融合两者:对普通用户像微信一样简单,对企业和高级用户像CLI一样可组合、可编排、可自动化。
腾讯的场景,既可能是资产,也可能是包袱
这也是我看腾讯这件事时最犹豫的地方。
腾讯当然有优势。
微信、QQ、企业微信、腾讯会议、腾讯文档、游戏、内容、广告、云服务,这些场景都能提供真实上下文。姚顺雨说context是未来壁垒,这个方向是成立的。模型越能处理复杂输入,谁拥有真实输入、真实权限、真实反馈,谁就越接近任务闭环。
腾讯云这次发布效率智能体工具集,覆盖QClaw、WorkBuddy、元宝、ima、腾讯文档、ADP等产品,也说明腾讯在把AI从模型层往工具层、工作流层、企业服务层推。
但问题是,旧场景不一定天然变成新入口。
如果AI只是被嵌进旧产品,旧场景可能会变成包袱。因为下一代入口未必是聊天列表、公众号、小程序首页和企业软件菜单,而可能是任务面板、Agent权限、工具协议和自动化工作流。
微信时代,入口掌握在人手里:人打开App,人选择服务,人确认支付。
Agent时代,入口可能掌握在任务里:人说目标,Agent拆路径,系统分配工具。
如果这个变化成立,腾讯的产品矩阵只有在被重构成context、tool、workflow和feedback之后,才会成为壁垒。否则,已有场景越大,改造成本越高,责任边界越重,组织动作也越难激进。
这就是"资产有时候也是负担"。
最大未知数是社交
AI超级应用从功能上覆盖操作系统,已经不难想象。
真正还看不清楚的,是社交会变成什么样。
微信形态的社交是否仍然是主流?这个问题现在没有答案。
过去二十年,社交网络的核心是人和人的直接连接。通讯录、群聊、朋友圈、关注、点赞、评论、转发,都是围绕人直接互动展开的。微信是这个时代最强的形态之一,因为它把熟人关系、支付、内容和服务入口叠在了一起。
但如果Agent成为新的操作系统,人不一定还会亲自处理所有社交信息。
你的Agent可能帮你筛选消息、总结群聊、判断优先级、生成回复、安排会议、维护弱关系。企业里的Agent可能先替双方协调日程、同步资料、拆解任务、生成会议纪要,再把需要人拍板的部分交回来。
这会产生一种新问题:社交还是人和人的社交吗?
一种可能是,微信仍然存在,AI只是增强层。它帮你理解信息、减少漏回、降低沟通成本,但关系网络本身不变。
另一种可能是,Agent与Agent之间先发生大量低风险协商。安排会议、确认需求、同步项目、处理售后、报价比选、资料收集,先由双方Agent完成,人只在关键节点介入。
还有一种可能是,社交从关系优先转向任务优先。不是先有群,再在群里找任务;而是先有任务,Agent自动召集相关人、工具和资料,生成一个临时协作空间,任务结束后空间解散,知识沉淀。
甚至还会出现人与AI的长期陪伴关系。它不只是虚拟朋友,而是外部化的记忆、偏好、目标和情绪管理系统。它会不会替代一部分低质量社交,现在还不好判断,但它一定会改变人对"在线陪伴"的期待。
所以社交是AI超级应用最大的未解题。
如果熟人关系、真实身份、支付信任和线下生活仍是核心,微信的护城河会很深。
如果大量协作和沟通被Agent代理,下一代入口就未必还是聊天列表,而可能是Agent网络、任务流和权限系统。
真正的比赛还没开始
OpenAI把ChatGPT、Codex和Agent能力往一个超级应用方向收,押的是Agent成为任务世界调度中心。
腾讯强调场景、context和co-design,押的是真实世界的问题、关系和反馈闭环。
这两条路都重要,但都还没有证明终局。
我真正认同的大趋势是:AI Agent有机会成为新的操作系统层,或者至少成为新的超级入口。
但现在就说谁赢得下半场,还太早。
今天最值得盯住的,不是哪个App多了一个AI按钮,而是三个问题:
第一,Agent能不能靠Coding制造自己的工具,把一次性token消耗变成可复用能力。
第二,未来服务接入会更像小程序,还是更像CLI、API和工具协议。
第三,人的社交会不会仍然保持微信式形态,还是被Agent重新组织。
如果说人类使用语言、文字和工具,是文明能力跃迁的起点;那么大模型开始用Coding制造工具,也许就是AI从"会说话"走向"会办事"的关键时间点。
AI超级应用的终局,可能不是一个更大的聊天软件。
它更像算力时代的新操作系统试验场。
真正的比赛,才刚刚开始。
主要参考:Reuters引用FT关于OpenAI超级应用改版的报道;OpenAI关于Codex、Codex app和ChatGPT agent的官方说明;腾讯云AI产业应用大会官方信息;汤道生、姚顺雨公开对谈;姚顺雨《The Second Half》。
以上仅代表个人观点。