沐曦携手FlagOS与实验室，成功完成DeepSeek-V4 Day0适配

发布时间：2026-04-25 08:26阅读：11

4月24日，沐曦股份与FlagOS达成合作，成功针对DeepSeek最新发布的DeepSeek-V4-Flash模型实现了Day 0级别的快速适配。同一天，沐曦股份还联合上海人工智能实验室的KernelSwift智能算子迁移系统，率先完成了DeepSeek-V4核心算子的Day 0适配工作。

截至目前，沐曦股份已迅速完成了针对国内19款主流开源模型的极速适配，全面覆盖了DeepSeek、MiniMax、智谱、阿里巴巴、腾讯、阶跃星辰、百度等头部厂商的最新旗舰模型。适配范围涵盖语言、多模态、OCR及3D生成等全领域，效率处于行业领先地位。

这一成绩的取得，既归功于沐曦股份在GPU硬件设计与自研软件栈MXMACA上的深厚技术积淀，也离不开与上海人工智能实验室及FlagOS合作伙伴的紧密协作。

依托FlagOS三大核心技术，沐曦芯片实现了全面适配

在沐曦股份与FlagOS的合作框架下，三大关键技术提供了强有力的支撑：

高性能通用大模型算子库FlagGems。据FlagOS透露，FlagGems支持超过8种芯片的全算子替代。针对DeepSeek V4在注意力机制和量化策略中引入的5个新算子，FlagGems进行了全面重新实现，以支持国产多芯片适配。

FlagOS采用了独立并行策略，打破了张量并行最多仅支持单机8卡的限制，将适用范围从“仅限单机80GB以上显存的高端卡”扩展到了“支持多机64GB/32GB显存的主流国产芯片”。

FlagOS支持从“FP4+FP8混合精度”到BF16的精度转换。鉴于DeepSeek-V4-Flash模型首次采用FP4+FP8混合精度，FlagOS完成了从FP4到BF16的完整转换，确保模型能在FP8及BF16生态的主流国产芯片上顺利部署。

目前，FlagOS已针对DeepSeek-V4开源模型实现了多芯全量适配与推理部署，开发者可以直接获取对应芯片的即插即用方案。

沐曦适配版本下载链接

魔搭：

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

HuggingFace：

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

KernelSwift加速引擎助力，沐曦芯片实现核心算子高效迁移

算子迁移效率与性能优化是释放国产算力潜力的关键所在。

沐曦股份在与上海人工智能实验室的合作中，利用实验室研发的KernelSwift智能算子迁移系统，率先完成了DeepSeek-V4核心算子的Day 0适配，算子平均通过率约为80%。

DeepSeek-V4模型发布后，KernelSwift启动全自动流程生成核心算子并适配多元国产芯片，实现了全程无人工干预。在DeepSeek-V4模型的21个核心算子中，KernelSwift采用融合策略，核心算子相比TileLang实现了1.2倍以上的性能提升，国产芯片平均正确性达到75%以上，平均加速比达到3.4倍。经过人工修改后，国产芯片的平均正确性提升至100%，显著提高了算子开发和迁移效率。

依托“自研GPU硬件+MXMACA软件栈”软硬一体计算平台的核心优势，沐曦股份能够快速响应大模型的迭代节奏，高效完成了多款主流模型的适配工作，以全栈技术实力为大模型的快速落地筑牢了算力基石。

未来，沐曦股份将继续深化与上海人工智能实验室及FlagOS的合作，以Day 0适配为基准，实现大模型“发布即落地”，共同构建从底层算力到上层应用的无缝生态，加速AI技术在各行各业的规模化应用，共建自主可控的智能计算新底座。

新闻资讯

← 上一篇：AI图文带货新风口下一篇：航空维修引入AI：机遇与挑战 →