标签

沐曦携手FlagOS与实验室,成功完成DeepSeek-V4 Day0适配

发布时间:2026-04-25 08:26来源:微信阅读:4

4月24日,沐曦股份与FlagOS达成合作,成功针对DeepSeek最新发布的DeepSeek-V4-Flash模型实现了Day 0级别的快速适配。同一天,沐曦股份还联合上海人工智能实验室的KernelSwift智能算子迁移系统,率先完成了DeepSeek-V4核心算子的Day 0适配工作。

截至目前,沐曦股份已迅速完成了针对国内19款主流开源模型的极速适配,全面覆盖了DeepSeek、MiniMax、智谱、阿里巴巴、腾讯、阶跃星辰、百度等头部厂商的最新旗舰模型。适配范围涵盖语言、多模态、OCR及3D生成等全领域,效率处于行业领先地位。

这一成绩的取得,既归功于沐曦股份在GPU硬件设计与自研软件栈MXMACA上的深厚技术积淀,也离不开与上海人工智能实验室及FlagOS合作伙伴的紧密协作。

依托FlagOS三大核心技术,沐曦芯片实现了全面适配

在沐曦股份与FlagOS的合作框架下,三大关键技术提供了强有力的支撑:

高性能通用大模型算子库FlagGems。据FlagOS透露,FlagGems支持超过8种芯片的全算子替代。针对DeepSeek V4在注意力机制和量化策略中引入的5个新算子,FlagGems进行了全面重新实现,以支持国产多芯片适配。

FlagOS采用了独立并行策略,打破了张量并行最多仅支持单机8卡的限制,将适用范围从“仅限单机80GB以上显存的高端卡”扩展到了“支持多机64GB/32GB显存的主流国产芯片”。

FlagOS支持从“FP4+FP8混合精度”到BF16的精度转换。鉴于DeepSeek-V4-Flash模型首次采用FP4+FP8混合精度,FlagOS完成了从FP4到BF16的完整转换,确保模型能在FP8及BF16生态的主流国产芯片上顺利部署。

目前,FlagOS已针对DeepSeek-V4开源模型实现了多芯全量适配与推理部署,开发者可以直接获取对应芯片的即插即用方案。

沐曦适配版本下载链接

魔搭:

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

HuggingFace:

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

KernelSwift加速引擎助力,沐曦芯片实现核心算子高效迁移

算子迁移效率与性能优化是释放国产算力潜力的关键所在。

沐曦股份在与上海人工智能实验室的合作中,利用实验室研发的KernelSwift智能算子迁移系统,率先完成了DeepSeek-V4核心算子的Day 0适配,算子平均通过率约为80%。

DeepSeek-V4模型发布后,KernelSwift启动全自动流程生成核心算子并适配多元国产芯片,实现了全程无人工干预。在DeepSeek-V4模型的21个核心算子中,KernelSwift采用融合策略,核心算子相比TileLang实现了1.2倍以上的性能提升,国产芯片平均正确性达到75%以上,平均加速比达到3.4倍。经过人工修改后,国产芯片的平均正确性提升至100%,显著提高了算子开发和迁移效率。

依托“自研GPU硬件+MXMACA软件栈”软硬一体计算平台的核心优势,沐曦股份能够快速响应大模型的迭代节奏,高效完成了多款主流模型的适配工作,以全栈技术实力为大模型的快速落地筑牢了算力基石。

未来,沐曦股份将继续深化与上海人工智能实验室及FlagOS的合作,以Day 0适配为基准,实现大模型“发布即落地”,共同构建从底层算力到上层应用的无缝生态,加速AI技术在各行各业的规模化应用,共建自主可控的智能计算新底座。

新闻资讯