AI智能体时代,大厂们在抢什么
最近科技圈有个反复出现的争论——拿腾讯元宝和字节豆包比,结论通常是‘恨铁不成钢’:小米的模型都能上榜,腾讯这么大体量,AI怎么这么拉?
这个争论背后有一个隐含假设:AI的价值 = 大模型的对话能力。
但如果我们退一步,不带预设立场地看,这个假设成立吗?
先摆几个事实:
要理解当下AI行业的竞争格局,回头看一遍科技史会有帮助。
第一幕:DOS时代(1980年代)
电脑是黑底白字命令行,普通人用不明白。会打字的人已经是‘高科技人才’。
第二幕:Windows革命(1990年代)
微软做了图形界面——有窗口、有图标、鼠标点一点就行。电脑从‘专业人士的工具’变成‘人人都能用的东西’。这一步,本质上不是技术突破,而是交互革命——让普通人不需要学命令,就能驾驭电脑的全部能力。
第三幕:移动互联网(2007年起)
苹果做了iOS——多点触控、App Store、开发者生态。手机从‘打电话的工具’变成‘装在口袋里的电脑’。又一次交互革命,又一次平台迁移。
现在,AI行业正在发生类似的事情。
那个问号,就是Agent OS——智能体操作系统。
概念容易玄乎,先说人话。
当前AI最大的痛点,不是‘不够聪明’,而是不够有用。具体来说有四层:
这是最基础的问题。现在的对话AI只能输出文字,碰不了你的文件、打不开你的软件、调不了你的系统。它像一个知识渊博但没有手脚的顾问——什么都知道,但什么都帮你做不了。
"帮我查一下明天北京的天气"——能做到。
"帮我整理本月数据,做成图表,发邮件给领导,并预约下周一复盘会议"——绝大多数AI会在这里崩掉。
因为后面这句话需要:理解需求→拆解任务→选择工具→按序执行→出错重试→汇总汇报。这不是一个‘聪明’的问题,而是一个‘工程’的问题。
未来一定会有无数专业AI:写文案的、做表格的、写代码的、管日程的、做客服的……但它们各干各的,信息不通、记忆不通、权限不通。就像一个公司里各部门各自为政,没有CEO。
现在玩龙虾、AutoGPT都需要‘养’——要教步骤、写规则、调参数。这和当年用DOS系统没本质区别:只有‘程序员’才能用好。
不是每个风口都值得all-in。但Agent OS不同——一旦做成,壁垒高到几乎不可颠覆。
原因不是技术多牛,而是‘护城河’的结构性问题。
Agent OS要管事,就必须对接大量外部服务——文档、会议、社交、邮箱、电商、出行、支付、企业软件……
谁先接入越多服务,谁就越不可替代。这和iOS、安卓的逻辑一模一样:用户选手机不是因为芯片好,而是因为上面能用的App多。
腾讯在这个维度有天然优势。微信(社交)、腾讯会议、腾讯文档、企业微信、支付、小程序……这些不是‘需要接入’的外部服务,而是自家生态。
一个Agent OS账号,本质上是一个持续成长的数字身份——它记住你的习惯、偏好、工作流程、人际关系。
使用越久,它越懂你;越懂你,迁移成本越高。这和微信的替换成本是一个逻辑:不是技术上换不了,而是你的社交关系都在里面。
这不是‘多训练几个参数’能解决的问题。任务拆解、决策规划、异常处理、多智能体调度、安全权限控制——这是一整套复杂系统工程。
这不是‘小公司有没有创意’的问题,而是‘有没有足够的资金、技术和场景来支撑这么复杂的工程’的问题。能玩的,只剩科技巨头。
Agent OS要操作你的文件、发你的邮件、甚至帮你转账。一旦出错,代价不是‘回答错误’而是‘真金白银的损失’。
权限控制、操作审计、风险拦截、可回溯——这些‘boring’的基础设施,恰恰是长期竞争中最难建立的东西。你不会把财务大权交给一个不靠谱的助手。
空有系统没用,必须有真实场景跑起来、迭代起来。只有腾讯、阿里、字节这类拥有海量用户场景的巨头,才能让Agent OS在实际使用中打磨成熟。
前面铺垫了这么多,现在可以回到腾讯了。
当行业还在争论‘豆包和元宝谁更强’时,腾讯在做一件维度不同的事——Helix,一个系统级的智能体平台。
核心思路用一句话说:一个账号,就是一个属于你的数字分身。
你想点餐,‘捏’一个点餐助手;你想管日程,‘捏’一个日程智能体;你想写方案,‘捏’一个文案智能体。这些智能体共用你的身份、记忆、偏好,而Helix是统一调度它们的底层系统。
当然,这里需要说一句公道话:Helix目前还处于早期阶段,远未到‘已经赢了’的地步。Agent OS能不能做成、做成什么样,还有巨大的不确定性。本文的分析逻辑是‘方向判断’,不是‘投资建议’。
如果Agent OS真的做成了,会是什么样子?
《钢铁侠3》里有一个场景,可能是最好的注解。
最终大战前,托尼·斯塔克只说了一句模糊的话:
贾维斯没有立刻行动,而是确认意图:
托尼:‘Correct.’(没错。)
然后,无需多说一个字、多按一个按钮,贾维斯自动调动所有钢铁战甲奔赴战场。
注意这个交互模式的本质——不是语音助手式的‘你说一句我做一步’,而是:理解意图→确认理解→全自动执行→只给你结果。
这就是Agent OS的终极形态。你只需要说一句话:‘下周五的粉丝交流会准备好了吗?’剩下的一切,系统自动完成。
如果真走到那一步,很多我们今天熟悉的东西都会被重构——App、图形界面、前端开发、交互设计……因为智能体根本不需要‘界面’,它直接和系统对话。
现在可以回答开头的那个争论了。
‘腾讯AI掉队了吗?’
混元模型的使命,从来不是当一个‘更会聊天的机器人’,而是为Agent OS提供最底层的‘大脑’。大脑不需要是最聪明的,但需要是最可靠、最稳定的——因为操作系统对底层的要求不是‘惊艳’,而是‘不崩’。
当然,最后必须强调:以上全是观察者的逻辑推演,不是投资建议。Agent OS能不能做成,做成的是不是腾讯,都有巨大的不确定性。本文只是试图提供一个不同的观察视角——当你下次看到‘腾讯AI掉队’的讨论时,或许可以多想一层: