微软推出三款自研AI模型，挑战OpenAI与谷歌

发布时间：2026-04-02 23:17阅读：12

微软(370.84, 1.47, 0.40%)周三发布了三款完全自主研发的基础人工智能模型，包括先进的语音识别系统、语音合成引擎以及升级版图像生成模型。这一举动标志着这家市值三万亿美元的软件巨头明确表示：它计划在模型研发方面，而不仅仅是在分发领域，直接与OpenAI、谷歌(293.8598, -1.04, -0.35%)以及其他前沿研究机构展开竞争。

这三款新模型分别命名为MAI-Transcribe-1、MAI-Voice-1和MAI-Image-2，现已通过微软模型开发平台及全新的MAI试用专区向公众开放。这些模型涵盖了企业级人工智能领域的三大高价值应用场景：语音转文字、生成逼真自然的人声以及图像创作。这是苏莱曼六个月前组建的超级智能团队首次亮相的重要成果，该团队的目标是实现他所说的“人工智能自主开发”。

在新品发布前接受采访时，苏莱曼表示：“我们的首批模型已经投入使用，其语音识别能力达到了世界领先水平。而且，运行该模型所需的GPU计算资源仅为行业内其他顶级产品的 half。”

这次发布正值微软面临一定挑战之际。公司股价刚刚经历了自2008年金融危机以来最糟糕的一个季度表现，投资者越来越迫切地要求看到证据，证明公司在人工智能基础设施上的数百亿美元投资能够转化为实际收益。此次推出的三款模型不仅价格具有竞争力，还有助于降低微软自身的运营成本，这也是苏莱曼对外界质疑做出的第一轮回应。

微软声称其新款语音识别模型在25种语言上表现出色

MAI-Transcribe-1是本次发布的重点产品。这款语音转文字模型，在行业通用的多语言评估基准FLEURS中，对于微软用户使用频率最高的25种主要语言，实现了最低的平均词错误率，仅为3.8%。根据微软内部测试数据，该模型在这全部25种语言的表现都优于OpenAI的第三代大型语音模型Whisper；在其中22种语言上胜过谷歌Gemini 3.1快速版本；相比Eleven Labs的第二代文本转写模型和OpenAI的智能转写工具，也在15种语言上取得了更好的成绩。

该模型采用了基于Transformer架构的文本解码器和双向音频编码器，支持最大200MB的MP3、WAV、FLAC格式文件处理。微软表示，它的批量转换速度是当前Azure高速语音转写服务的2.5倍。角色分离、场景优化以及实时流式转写等功能也将很快上线。目前微软已经在Copilot语音模式和Teams协作软件中对该模型进行了测试，用于会议内容记录，这也显示出公司希望迅速替换掉第三方或旧有的自有模型的决心。

同时推出的MAI-Voice-1是一款文本转语音模型，每秒可以生成60秒流畅自然的声音。该模型能够在长段落中保持声音一致性，并且只需要几秒钟的音频样本就可以创建个性化音色，定价为每百万字符22美元。而MAI-Image-2一经推出就进入了Arena.ai排行榜前列，在模型开发平台和Copilot中的生成效率比前一代提高了一倍以上，现已全面集成到Bing搜索和PowerPoint演示文稿软件中，文本输入的价格为每百万token 5美元，图像输出则为每百万token 33美元。全球知名广告集团WPP成为了首批大规模应用该图像模型的企业客户之一。

与OpenAI重新签约，扫清自研障碍

要理解这些模型的战略意义，首先需要了解背后的合同变化。直到2025年10月之前，原有协议限制了微软独立开发通用人工智能的能力。早在2019年，微软与OpenAI签署了一份协议，由微软为其提供云计算支持，作为交换获得了OpenAI模型的使用权。然而随着OpenAI开始与其他企业如软银(11.95, 0.00, 0.00%)合作扩展算力资源，微软随即着手谈判修改原有协议。苏莱曼在2025年12月的一次采访中承认，在几个月前修订之前的协议明确规定，微软不得独自从事通用人工智能和超级智能技术的研究。新的协议取消了这项限制，使微软得以自主开发先进模型，同时也保留在2032年前继续使用OpenAI所有研究成果的权利。

苏莱曼指出：“去年九月，我们完成了与OpenAI的新一轮协议谈判，从而获得了独立研发超级智能技术的资格。从那时起，我们就全力以赴整合计算资源、组建专业团队并采购必要的训练数据。”

他还强调双方合作关系依然稳固：“我们同OpenAI的合作仍在继续，有效期至少延续至2032年，长期来看仍将是重要的合作伙伴关系。”此外，微软还在自己的平台上开放了Anthropic旗下Claude模型的访问权限，致力于打造一个涵盖各类模型的服务平台。但很明显，微软正在建立一套完整的自主技术体系。据Business Insider三月份独家报道，苏莱曼曾在一份内部备忘录中明确提出，未来五年内的核心任务就是集中力量攻关超级智能项目，推出世界级的自研模型。CNBC补充说，这样的结构调整使得苏莱曼不再负责Copilot产品的日常管理工作，原Snap(4.71, -0.19, -3.88%)高管雅各布・安德烈乌接替了他的位置，担任消费端和商业端Copilot业务负责人。

小团队成就大突破

苏莱曼分享了一个特别引人注目的细节——研发团队非常精干。他说：“音频相关的模型仅由十个人的小队完成，无论是性能提升还是精确度改进，都是依靠我们自己设计的模型框架和专门的数据集来达成的。我一直倡导的是高效的小型精英队伍，给予他们充分的信任和支持，所以我们采取高度扁平化的管理模式。就连图像模型的研发小组人数也不超过十个。真正的竞争优势来自于我们在模型结构上的创新和高质量数据的应用，最终才能取得卓越的效果。”

这种做法带来了双重革新效应。一方面打破了业界普遍认为的观点：尖端AI研究必须依赖庞大的研究人员队伍和巨额资金投入。相反地，Meta等公司倾向于大规模招聘，顶尖人才年薪甚至可达一亿至两亿美元。另一方面，精简团队显著改善了盈利前景：微软仅仅依靠十几名工程师就能够创造出所需算力减半却更加精准的语音识别模型，这使其AI业务的盈利方式与那些盲目烧钱追赶指标的竞争者形成了鲜明对比。

简约风格也反映了苏莱曼对整个行业的看法。谈到团队的工作环境时，他形容更像是创业公司的交易室而不是传统的微软研发中心：“大家都围着圆桌工作，没有固定的座位安排，每个人都配备笔记本电脑而非台式机显示器，几十个人挤在一个房间里共同编写代码、协同解决问题。”

以人为本的理念，满足企业客户需求

苏莱曼不断强化微软AI的独特定位——“人文智能”。这个概念不仅出现在新产品公告里，也在访谈中有深入阐述：“人文超级智能的本质在于让科技真正服务于人类。人类始终掌控着决策权，所有的技术创新都要坚持以人为中心的原则。”

这套思想有多重作用：既不同于OpenAI、Meta那种激进的技术驱动路线，又符合那些重视合规性的行业客户的采购偏好，为企业治理和审计提供了安全保障；同时也能作为一种风险管理机制，一旦出现技术安全隐患，微软可以通过强调其可控性和安全性来缓解外界担忧。去年十二月的采访中，苏莱曼再次重申安全控制和技术价值观的重要性，明确表示只有确保超级智能技术的安全可靠后才会推向市场。

他还把数据来源追溯能力视为关键优势，并透露他曾就此问题与CEO纳德拉进行过沟通，决心建立起“干净合规的数据驱动自研模型生态系统”。他对开源竞争对手含蓄批评道，某些开源项目的训练材料可能存在法律风险，带来潜在威胁。当前整个行业中版权纠纷层出不穷，如果微软能够证明其所使用的训练资料均已合法授权，那么对企业买家来说将大大减少法律风险和品牌损害的可能性。

激进定价策略冲击对手阵营

此次新品发布会标志着微软在三个方向上发起攻势：语音识别模型旨在打破OpenAI开源语音模型的垄断局面，在25项基准语言准确性上全面领先；在22种主流语言性能上超越谷歌极速版模型，直接对抗谷歌在其全系列产品中推广自家大模型的战略；语音克隆模型只需几秒钟音频即可产生高保真语音，实时生成速率高达六十倍速，正面迎战Eleven Labs等语音初创企业。再加上微软强大的生态系统分发渠道，开发者可以轻松通过现有的通用API接口调用这三款自研模型，并与GPT、Claude无缝对接，形成难以逾越的竞争壁垒。

苏莱曼毫不掩饰地说，微软现在已经跻身全球三大顶尖研发行列，紧随OpenAI与谷歌之后。而在定价策略上更是巧妙布局：语音和图像模型的费用全面低于低价云服务商的标准，力求压低亚马逊和谷歌同类服务的成本。

这一战略正好契合微软的优势所在，借助庞大的企业客户群体分散研发开支，同时解答资本市场最为关心的问题：人工智能投资何时见效。今年以来微软股价下跌约17%，正处于科技股整体下滑的大背景下。自研模型节省下来的计算开销不仅可以降低Office套件、智能助理、Bing搜索引擎等内部产品的运行成本，还可以低价吸引更多的开发者加入。苏莱曼三月份的备忘录提到，这批模型将会极大减轻企业的经营负担，支撑未来的超大规模AI算力部署，而这三款新品正是兑现承诺的具体体现。

展望通用大模型发展，迈向彻底技术独立

苏莱曼清楚表明，语音和图像模型只是一个起点。当被问及是否会开发能够媲美顶级通用大模型的产品时，他的回答坚定有力：“我们必须打造出全方位领先的自研模型。我们的终极目标是要做到完全自主可控，按需交付最高效能、最低成本的先进技术。”

公司已经制定了详细的多年发展规划，计划建设超大规模的计算集群。超级智能团队于2025年10月正式成立，目前成员定期在线下面对面攻坚。苏莱曼此次接受专访的地点就在迈阿密，正是团队年度集训所在地，CEO纳德拉亲自到场参与讨论，确定了接下来三到四年间人工智能自主开发全过程的蓝图与计算资源配置方案。

通用顶级大模型的研发难度、所需数据量和计算消耗远远超过了此次发布的产品。现阶段推出的几个专项模型专注于音频和视觉处理，尚不具备通用对话模型那样的复杂推理和文本生成功能。现在苏莱曼拥有组织权力、高层支持和合同自由，唯一有待验证的就是能否克服AI核心技术难题并成功落地。

不过目前已有的成果已经足够令人印象深刻：三项特定领域的顶尖模型均由小型精英团队打造而成，所需计算资源仅为行业平均水平的一半，定价低于主流云供应商。两年前苏莱曼提出了一个新的图灵测试标准：AI不需要模仿人类对话，而是要在最小干预的前提下顺利完成真实的商业任务。今天发布的这些新产品，正是朝这个愿景迈出的关键一步。未来最大的悬念就在于微软超级智能团队是否能复制今天的成功经验，冲击通用大模型高峰，并赶在市场失去耐心之前交出满意答卷。

责任编辑：李肇孚

新浪财经声明：此消息系转载自合作媒体，新浪财经登载此文出于传递更多信息之目的，文章内容仅供参考，不构成投资建议。

郑重声明：1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。

← 上一篇：特朗普强硬表态引发市场巨震，黄金白银暴跌原油飙升下一篇：美联储缩表路径新思路：洛根详解可行方案 →