广东AI人才引领中国创新浪潮
杨植麟,这位来自广东的AI专家,近期频频成为行业焦点。
在中关村论坛上,他作为代表登上了《新闻联播》;在英伟达的GTC大会上,他受邀分享了长达40分钟的技术报告,展示了独立大模型公司的技术实力。
1993年出生的杨植麟,先后就读于清华大学和卡内基梅隆大学,并曾师从多位知名AI学者。2023年初,他创立了月之暗面kimi,迅速成为AI界的热门话题。
一年前,另一位广东人梁文锋也站在了AI的聚光灯下。他的家乡湛江吴川吸引了众多AI爱好者,许多人慕名而来,了解他研究电路的故事。那台收音机后来被收藏在DeepSeek总部,成为展示厅的一部分。
从梁文锋到杨植麟,广东籍AI人才在全球舞台上崭露头角,他们的成就不仅限于个人,更推动了国产AI模型的发展,使其在全球开源领域占据重要地位。
“中国造”模型,成为全球顶尖AI应用的基础
月之暗面kimi在DeepSeek之后,成为了全球AI领域的基石。
今年3月,kimi发布了技术报告《Attention Residuals》,重新设计了大模型的核心结构残差连接,实现了OpenAI联合创始人Ilya Sutskever的设想。这一创新使得模型在处理数据时更加灵活高效。
论文发布后,马斯克、Andrej Karpathy等业内专家纷纷点赞,认为这标志着深度学习的新阶段。
3月17日,黄仁勋在GTC 2026上将Kimi K2.5作为展示新一代芯片能力的基准模型。3月18日,杨植麟在GTC的分论坛上分享了Kimi K2.5的进化路线,强调了Token效率、长上下文和智能体集群的重要性。
3月20日,AI编程工具Cursor发布了自研模型Composer 2,称这是公司首次对基座模型进行“继续预训练结合强化学习”的成果。
随后,有开发者发现Cursor的底层模型实际上是Kimi K2.5,马斯克迅速确认了这一点,再次将Kimi推到了聚光灯下。Cursor最终公开致歉,承认未在发布博客中提及Kimi K2.5是失误。
类似的情况也曾发生在DeepSeek身上。去年11月,Cursor发布新模型Composer-1时,标榜为“自家首个编码模型”,但有网友发现其与DeepSeek使用相同的分词器,推测新模型可能是DeepSeek的变体。
从DeepSeek到Kimi,Cursor的“自研模型”不断更换底座,但都源自中国。Hugging Face的克莱门特·德朗格指出,中国的开源模型已成为塑造全球AI技术栈的最大力量。
在能够“扛鼎”之前,所有模型都需要经历成长期。无论是DeepSeek还是Kimi,都经历了类似的蛰伏和积累。尽管现在它们备受关注,但一年前,Kimi也曾面临外界的质疑。
月之暗面获得了当时国内大模型的最大单笔融资,杨植麟的技术背景和学术成就也让他被视为坚定的AGI信徒。
转折点出现在2025年年初,梁文锋和DeepSeek的出圈,让Kimi的激进投流路线受到了质疑。细扒两者的动作,可以看出它们在技术上的不同发展路径。
例如,DeepSeek发布R1时,Kimi也在同一天发布了多模态思考模型k1.5;2025年2月,DeepSeek和Kimi分别发布了关于注意力机制的论文,但DeepSeek的影响力更大,Kimi的关注度相对较低。
当年3月,月之暗面内部召开沟通会,迅速调整战略,将技术和模型作为核心方向。7月,Kimi新模型K2刷屏海外技术圈。梁文锋和杨植麟之间的技术“撞车”仍在继续,包括对数学推理模型和视觉理解的共同关注。
频繁的技术“撞车”,反映了两者对技术和行业的共同判断。例如,2025年4月,Kimi推出了数学推理专项模型Kimina-Prover Preview,采用“自验证”方式。4月底,DeepSeek也发布了数学推理模型DeepSeek-Prover-V2。
今年1月,DeepSeek和Kimi继续关注视觉理解,Kimi发布了新模型Kimi K2.5,杨植麟称之为“全能模型”。同日,DeepSeek上线了新一代模型OCR-2,具备动态调整阅读顺序的能力。
有了广东人的示范和启发,中国将涌现出更多具备全球竞争力的AI模型。它们将以东方的坚韧和聪明,告诉世界中国AI企业的崛起,以及中国人在全球人工智能竞技场上的独特创造力与韧性。据公开报道,DeepSeek V4有望在4月发布,一个新的改写规则的时刻即将到来。
文/林文琪