标签

Kimi估值破200亿美元 巨头围剿与人才压力同步来袭

发布时间:2026-05-06 21:02来源:新浪新闻阅读:7

文丨程曼祺

编辑丨宋玮

《晚点 LatePost》独家获悉,Kimi(月之暗面)正准备收官新一轮 20 亿美元融资,投后估值将迈过 200 亿美元关口。本轮融资由美团龙珠领投,中国移动(96.790, 0.16, 0.17%)、CPE(中信产业基金)等跟投,其中龙珠单笔出手便超过 2 亿美元。

今年 1 月与 2 月,Kimi 已密集完成 3 轮融资,金额分别为 5 亿、7 亿和 7 亿美元。若把最新这一轮计算在内,不到半年里其融资总额超过 39 亿美元;相较去年 11 月约 43 亿美元的估值,涨幅达到 4 倍以上。

截至目前,Kimi 累计融资额已突破 376 亿人民币,位列大模型创业公司累计融资最高。若再叠加 IPO 募资,MiniMax 累计融资约 150 亿人民币,智谱约 130 亿人民币。截至 5 月 6 日午间休市,MiniMax 市值约 2100 亿人民币,智谱约 3470 亿人民币。

美团龙珠合伙人王新宇向我们表示,K2.5 模型更新后,Kimi 的 ARR(年度经常性收入)在今年 3 月初率先突破 1 亿美元,4 月进一步攀升至超 2 亿美元,付费订阅与 API 调用都呈加速态势。

在完成新一轮融资前夕,Kimi 于 4 月 20 日晚发布最新模型 K2.6,并同步开源。K2.6 侧重编程与 Agent 集群能力,可让最多 300 个子 Agent 协同工作,Kimi 也开始配合测试 Claw 群组相关新功能。

在此之前的一年多时间里,Kimi 也经历了战略方向、团队士气以及投融资环境等多重因素的低谷与反弹。

2025 年 1 月 20 日,Kimi 发布推理模型 Kimi K1.5,对标 OpenAI o1。与此同时,同一天 DeepSeek 发布并开源 DeepSeek-R1。

尽管 K1.5 在部分 benchmark 上超过当时的领先模型 GPT-4o 与 Claude 3.5 Sonnet,但市场的焦点几乎被 DeepSeek 全面吸走。随后在 2025 年春节前后,DeepSeek 仅以 0 投放便拿下数千万日活,直接超越 2024 年加大投放的 Kimi,且一度超过了字节豆包。

那段时间是 Kimi 的“艰难期”。2025 年春节过后,kimi 出现了三个关键转向:

- 将“持续拿到 SOTA(模型最佳表现)”作为最高优先级目标。

- 大幅压缩 C 端投放。

- 从闭源走向开源。

在上述调整之后,Kimi 在方向选择与技术产出上逐步体现出更稳定的成果。

聚焦 coding 与 Agent:“生产力优先”落到执行

与智谱的路径类似,Kimi 也是国内较早把资源投入到编程能力的团队之一,而编程正是通用 Agent 的核心能力。

这与杨植麟长期强调的“生产力场景优先”“效率场景优先”理念相互呼应。但在 2024 年阶段,Kimi 的动作仍较为分散,也尝试过面向海外的 to C 产品与视频生成。

到了 2025 年后,Kimi 明显更聚焦。开源的 Kimi K2(今年 7 月)以及自 2026 年 1 月至今持续迭代的 K2.5 与 K2.6,都在强化编程与 Agent 能力。

其中,K2 是 Kimi 借鉴 DeepSeek 经验、补齐预训练能力后推出的模型,采用与 DeepSeek-V3 类似的 MoE(混合专家)以及 MLA(Multi-Head Latent Attention,多头潜在注意力)架构,将总参数扩展至 1T(万亿参数),从而强化编程与多轮工具调用等 agent 能力。两个月后,Kimi 推出 Agent 功能“OK Computer”(后改名 Kimi Agent)。K2.5 则首次引入视觉能力,并开始支持智能体群模式。

K2.5 针对编程与 Agent 的优化,也适配到了 OpenClaw(业内称“龙虾”);随后 Kimi 在 2 月 15 日推出云端龙虾 Kimi Claw,主打低门槛的一键部署。

模型持续进化的同时,产品也在同步更新,Kimi 今年以来的营收与订阅用户数明显提升。

- 据全球支付平台 Stripe 数据,自 2026 年 1 月底起,Kimi 近 20 天收入已超过 2025 年全年总和。其个人订阅用户 1 月的支付订单数环比增长超过 8000%,2 月环比再涨超 120%。

- 据 Similarweb 数据,Kimi 海外 API 开放平台在 K2.5 发布后,日均访问量出现 10-20 倍的跃升。

MuonClip、Attention Residuals:技术影响逐步显现

在具体技术进展上,2025 年年初,Kimi 曾在 16B 的 Moonlight 模型上验证 Keller Jordan 2024 年开源的 Muon 优化器(最初在 1.5B 规模模型上完成验证)。随后在 1T 规模的 K2 上,Kimi 又提出 Muon 的改进版 MuonClip,后续被广泛采用。

Kimi 创始人杨植麟在多次公开场合提到过这项成果,把它当作技术“taste”的代表案例。刚刚发布的 DeepSeek-V4 也使用了 Muon 优化器,并在此基础上继续提出新的改进。

Moonlight 共同一作之一 Jingyuan Liu 已在 2025 年年中加入 Meta,目前任职于 Meta 超级智能实验室(MSL)。

2025 年 10 月,Kimi 推出实验性的线性注意力架构模型 Kimi-Liner。该模型是在开源的 DeltNet Attention 基础上做进一步调整。

为了更深入探索线性注意力,Kimi 从 AI 研究者杨松林发起的 FLA 线性注意力开源社区中,吸纳了一批活跃开发者张宇与陈广宇。张宇就读于苏州大学计算机科学与技术学院博士阶段,陈广宇则是一名高中生。

2026 年 3 月,Kimi 提出 Attention Residuals(注意力残差)。该方法把 Transformer 的注意力机制引入其中,用来缓解传统残差连接(Residual Connection)可能带来的信息稀释与训练不稳定等问题。残差链接作为深度神经网络已长期使用的一项基础技术,也引发了外界关注。马斯克在推特转发这一成果时写道:“Impressive work from Kimi”。

Attention Residuals 有三位核心作者:Kimi 从 FLA 社区挖掘的陈广宇与张宇,以及被称为“苏神”的苏剑林。他是大模型中广泛使用 RoPE(旋转式位置编码)的作者,长期独自在广州工作。

Attention Residuals 与 DeepSeek 在 2025 年年底提出的 mHC(Manifold-Constrained Hyper-Connections 流形约束超连接)追求的目标在某些层面相近。而 mHC 改进的 HC,则源自字节跳动 Seed 团队的思路。

从 HC、mHC 到 Attention Residuals,这些连续出现的技术突破,折射出中国 AI 人才密度不断提升以及竞争强度持续加码的现实。

从“太贵”到“好便宜”

2024 年底,《晚点 LatePost》在《中国大模型生存战:巨头围剿,创业难熬》一文中提到,面对“会跳舞的大象”字节,一批大模型创业公司承受着巨大压力。

过去 18 个月里,两个关键节点让创业公司的“第一线机会”逐渐打开。

其一是 DeepSeek-R1 让开源模型生态真正变得繁荣,活跃度显著提升。大量开源模型之间的技术交流加速,推动模型快速进化;其二是 Agent 应用的普及节奏加快,同期上市的智谱、MiniMax 股价随之走强,带动更多资金重新流入大模型行业。

目前,MiniMax 与智谱的市值大致在 2000 至 4000 亿人民币之间波动。也因此,估值约 1400 亿人民币的 Kimi 变成了市场关注的热门投资标的。

下一步,这些模型公司要面对的关键任务,是继续维持模型 SOTA,并验证围绕“token”所构建的商业模式是否可持续。

模型能力的本质仍是人才。2026 年初,Kimi 创始人杨植麟在全员信中提到:2026 年公司的平均激励将达到 2025 年的 200%,并计划显著提高期权回购额度。

2026 年 4 月初,《晚点 LatePost》也曾报道,Kimi 给实习生发放期权“穿越计划”。由于 Kimi 在数月内估值翻了 4 倍以上且尚未上市,其期权自然更具吸引力。

但即便如此,Kimi 仍面临不小的人才压力。由于其在编程、agent 等方向表现突出、赛道竞争正在升温,Kimi 相关岗位也成为竞争对手重点关注的挖角对象。

在商业模式层面,中国大模型创业公司普遍依赖两条路径实现收入:一是通过 API 提供模型,按照 token 的实际用量计费;二是基于自家模型打造应用,通过按月或按年订阅的方式获取付费用户。要验证商业模式,关键在于是否能拿到足够且高质量的算力,能否以高效推理把成本控制住,以及能否依靠产品体验形成“溢价”。而获得足够的资金,正是上述一切的前提。