标签

DeepSeek融资500亿,梁文锋引入战投

发布时间:2026-05-10 09:58来源:新浪新闻阅读:4

记者丨何己派 编辑丨鄢子为

梁文锋首次向外界开放怀抱,引入战略投资者。

5月8日,据传其掌管的DeepSeek即将完成首轮融资,投后估值高达500亿美元,折合约3400亿人民币。

作为杭州深度求索的掌舵人,梁文锋持有84%的股份。据悉,他个人投入资金或高达200亿元,占募资总额的四成。

在完成融资前,他刚刚提交了“答卷”。4月24日,DeepSeek-V4发布,距离上一代V3发布间隔长达484天。

“DeepSeek流失了大量人才,且高端算力受到限制。”

一位AI行业资深人士向《21CBR》记者透露,这是其改变融资策略、推迟新版本发布的原因。

走出理想的高塔,梁文锋寻求强力支持,直面技术突破之外的现实挑战。

锁定人才

DeepSeek资金并不匮乏。

2025年,母公司幻方量化的平均收益率高达56.6%。按700亿元管理规模计算,对应约400亿元收益,按行规二八分账,可提走七八十亿元。

有幻方量化作为出资方为研发输血,资金安全垫厚实。“我们面临的问题,从来不是钱。”梁文锋曾表示。

然而,员工个人会有财务顾虑,DeepSeek最聪明的人才正在流失。

《21CBR》记者查阅DeepSeek V4长达58页的技术报告,末尾的作者列表中,梁文锋与其他研究员、工程师近300人共同署名。

10个带星号的名字颇为扎眼,标注着“已离职”。

近期出走的技术骨干之一郭达雅,曾深度参与V3、R1等爆款模型研发,加盟字节跳动Seed,传闻年薪近亿元。

字节方面否认了该说法,并抛出“钩子”,“不排除部分Seed技术人员,四年后收益可达数亿元”。

其实,梁文锋提供的薪资不低。一名求职者透露,2024年面试深度学习研究员时,HR透露薪资可达150万元。

这位“技术宅”老板还给予了极大的空间。

一个细节是,DeepSeek员工通常18点下班,早间不打卡,无KPI。因为梁文锋认为,人一天高质量输出的时间很难超过6-8小时,创新需要尽可能少的干预和管理。

在AI人才争夺战中,梁文锋需要给团队更多安全感,特别是对员工持有的期权,需要明确交代。

有了外部融资,DeepSeek会有公开估值,期权才有定价锚点。这是留住人才的前提。

梁文锋改变态度,正与国家集成电路产业投资基金、腾讯等机构洽谈。

知情人士称,本轮融资将用于提升计算能力和改善员工福利,以应对激烈竞争。

算力博弈

在人才议题之外,梁文锋还有一场算力硬仗要打。

《21CBR》记者注意到,截至5月9日,DeepSeek共有36个职位急需人才,仅4月27日就批量放出十余个岗位需求。

梁文锋提升了对产品的关注度,强化Agent方向的人才招募及探索,同时招聘“搜索算法研究员”。

该岗位职责包括设计面向AGI的新一代通用搜索引擎,负责LLM在搜索场景下的规模化落地。

为了突破算力瓶颈,DeepSeek开始招聘“AI超算集群运维工程师”。

其职责之一是“负责新一代计算资源的快速交付与上线,确保资源能高质量、高性能地投入生产”。拥有千卡以上大规模AI超算集群运维经验是岗位加分项。

同月招聘的还有“数据中心高级交付经理”“数据中心高级运维工程师”,工作地点在乌兰察布,月薪最高3万元。

梁文锋早在2021年,就颇具先见之明地囤积了1万张英伟达A100。

“梁很有情怀,早期卡多,他开放提供给高校用于科研。”一位AI从业者向《21CBR》记者透露。

幻方“萤火一号”

在复杂的芯片格局下,梁文锋及DeepSeek背负“用国产算力跑国产模型”的巨大期望。DeepSeek发布后,国内GPU芯片架构也开始发生变化。

V4技术报告中提到华为昇腾:团队将细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上验证。

“这表明DeepSeek V4的推理路径已具备跨算力平台的适配能力。”一位AI行业人士称。

与之对应,DeepSeek介绍V4价格时,一行标灰的图注小字,信息量巨大:

受限于高端算力,目前Pro服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。

种种信号令人振奋。国产算力完全“顶起来”仍需时间。

“国产算力目前集中在推理阶段,且限定在容错率高的场景,离用于核心预训练阶段还有一段距离。”

一位AI行业从业者给出了相对保守的估算,“起码需要追赶八到十年的差距。”

死磕效率

回到V4本身,它是观察梁文锋模型taste(品味)最直观的窗口。

总体来说,关键词未变:效率。

DeepSeek-V4开创了一种全新的注意力机制——在token维度进行压缩,结合DSA稀疏注意力,在实现极强长上下文能力的同时,相比传统方法大幅降低对计算和显存的需求。

简单来说,它让长文本处理效率有了质的飞跃。

由此,百万级上下文以前是闭源旗舰模型才玩得起的“奢侈品”,如今被打成了“白菜价”。

V4有两个版本,DeepSeek-V4-Pro(专家模式)和DeepSeek-V4-Flash(快速模式)。

前者负责“强”,官方称性能比肩顶级闭源模型;后者负责“省”,提供快捷、经济服务。

专项能力方面,梁文锋带队重点攻克Agent方向,V4系列针对Claude Code、OpenClaw等主流Agent产品进行适配和优化。

DeepSeek-V4-Pro:性能比肩顶级闭源模型

内部称,在Agentic Coding评测中,V4-Pro已达当前开源模型最佳水平。

“据评测反馈,使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,仍与Opus 4.6思考模式存在一定差距。”DeepSeek罕见披露了内部使用Agentic Coding模型的状况。

需要指出的是,DeepSeek此次发布的是“预览版”,正式版还要再等。

“V4能力水平仍落后于GPT-5.4和Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型3至6个月。”团队在技术报告中坦言。

锚定顶级模型,梁文锋仍执着求解,当算力越来越贵时,能否通过极致的架构创新继续降低算力成本。

“不诱于誉,不恐于诽,率道而行,端然正己。”V4的发布公告中,梁和团队以这句话总结,表明初心。

题图来源:21财经APP

图片来源:DeepSeek,除标注外