首页| 论坛| 搜索| 消息
主题:八款国产AI芯片,Day0 实现 DeepSeek-V4 适配
爱我中华发表于 2026-05-08 14:15
elease/DeepSeek-V4-Flash-ascend-FlagOS
天数智芯版https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-iluvatar-FlagOS
HuggingFace平台
清微版https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-tsingmicro-FlagOShttps://huggingface.co/FlagRelease/DeepSeek-V4-Flash-tsingmicro-FlagOS
沐曦版https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-metax-FlagOShttps://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS
摩尔线程版https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-mthreads-FlagOShttps://huggingface.co/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS
海光版https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-hygon-FlagOShttps://huggingface.co/FlagRelease/DeepSeek-V4-Flash-hygon-FlagOS
平头哥真武版https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-zhenwu-FlagOS
昆仑芯版https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-kunlunxin-FlagOS
华为昇腾版https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-ascend-FlagOShttps://huggingface.co/FlagRelease/DeepSeek-V4-Flash-ascend-FlagOS
天数智芯版https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-iluvatar-FlagOS
Part.02
三大技术突破,让 DeepSeek 实现
“多芯极速适配”
突破一:FlagGems 提供支持多元芯片的全算子替换方案,解决跨芯适配首要难题
在对 DeepSeek V4 系列模型的多芯适配过程中,FlagGems 实现了推理链路中全部算子的替代。这意味着什么?
彻底脱离 CUDA 算子依赖:DeepSeek V4 的 MoE 专家调度、Attention 计算、RMSNorm、TopK 路由等全部核心计算模块,均由 FlagGems 基于 Triton/Triton-TLE语言重新实现,不调用任何 cuDNN/cuBLAS 等 NVIDIA 私有库。
无需芯片厂商逐一适配:传统模式下,每款新模型上线,芯片厂商需要投入工程团队做算子适配。现在通过 FlagGems + FlagTree 编译器的组合,新模型的算子可以直接编译到多款芯片后端,芯片厂商不需要做任何额外工作。
新算子即时可用:DeepSeek V4 模型引入的新计算模式(如 o-group 相关的分组路由机制),FlagGems 已经实现了对应的新算子,并通过 FlagTree 编译器统一编译到所有支持的芯片后端。
FlagGems 作为全球最大的 Triton 单一算子库,已拥有超过400 个大模型常用算子,并已正式进入 PyTorch 基金会生态合作项目。在 40 个主流模型上,推理任务算子覆盖度达到 90%~100%,完整支持 DeepSeek V4 的全部计算需求。
突破二:为o-group采用独立并行策略,解除张量并行最多单机8卡限制
DeepSeek V4 为了进一步降低计算开销采用了分组输出投影技术(Grouped Output Projection),配置为o_group=8,这导致在传统的张量并行时候,最多切8份。而当前一些主流国产芯片的单卡显存为 32GB 或 64GB,尤其在BF16格式情况下,需要张量并行大于8份才能放的下。为了解除这个限制,FlagOS 专门针对 o_groups 进行了单独张量并行策略设计和实现,确保 o_goups 切分不超过 8 份的前提下,能够让模型其他部分还采用经典的张量并行策略,并且实现超过 8 份的切分。通过不同的张量并行策略组合,能够实现多于 8 台设备的张量并行运行。
FlagOS 对 o_group 张量并行的技术改动集中在以下方面。
独立的并行策略:独立于已有的张量并行通信组之外,为 o-group 单独构建所需要的张量并行通信组,确保其他模型结构张量并行切分超过 8 的情况下,o-group 的张量并行在 8 以内。
参数转换调整:对 o_group 相关的参数,也进行了对应单独的张量并行切分处理,以确保在新的独立张量并行策略下,也能够被正确加载。
覆盖面扩展:这一优化能够将 DeepSeek V4 在单独采用张量并行策略下,将可运行芯片范围从“仅限单机 80GB以上显存的个别高端卡” 扩展到“多机64GB/32GB的更多主流国产芯片”,例如海光、沐曦、天数智芯等厂商的主力产品线。
突破三:从“FP4+FP8混合精度” 到 BF16的精度转换,打通主流芯片的计算路径
DeepSeek V4 模型发布时,首次采用 FP4+FP8混合精度,该精度只有在 Blackwell 及之后的英伟达最新硬件上才有支持,但当前所有国内非英伟达 AI 芯片都未能支持,只有摩尔线程原生支持了 FP8,其余依然以 BF16 为主。
FlagOS 完成了从 FP4 到 BF16 的完整精度转换。
权重反量化:将 FP4 量化权重转换为 BF16 格式。这不是简单的类型转换,而是需要根据 DeepSeek 的量化方案进行逆量化计算,确保数值精度。
计算路径重建:FP4 和 BF16 在底层计算上有本质差,FP4 的动态范围更窄,累加精度、溢出处理策略均不同。FlagOS 对推理链路中的 GEMM、Attention、MoE 路由等关键计算节点逐一适配了 BF16 路径。
精度对齐验证:经过标准评测集验证,BF16 版本与 FP4 原生版本在核心能力指标上保持对齐,确保精度转换不引入业务层面的效果损失。
本次,FlagOS推出了FP8和BF16两种适配版本,让 DeepSeek V4 不局限在最新 NVIDIA 卡上,也能部署在 FP8 及 BF16 生态的其他芯片上。
Part.03
FlagGems开源新算子全面支持
DeepSeek-V4 系列模型
本次新发布的 DeepSeek-V4 模型共有大约 67 个算子,FlagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5个新算子,实现了对 DeepSeek-V4 的全面支持,也为跨芯适配打下重要基础。
FlagGems高性能算子库的下载使用
GitCode:https://gitcode.com/flagos-ai/FlagGems/tags/v5.0.2
Gitee: https://gitee.com/flagos-ai/FlagGems/tree/v5.0.2
GitHub:https://github.com/flagos-ai/FlagGems/tree/v5.0.2
为了支持更多 AI 芯片的使用,FlagOS 对 DeepSeek-V4 模型中使用的新算子使用 Triton 语言进行重新实现,基于 FlagTree 统一编译器,性能全部超过原生性能。(以下数据是针对DeepSeek-V4-Flash的测试)
C++ Wrapper 技术是 FlagOS 社区专门为提升基于 Triton 语言的算子内核调用效率而打造的技术。目前已经支持了该技术的芯片包括华为昇腾、寒武纪、摩尔线程、平头哥真武、及英伟达等。使用了 C++ Wrapper 技术,在普通的 Transformers 框架下,可以显著提升使用了 Triton 算子的模型的端到端效率,实现跨芯普适、和高效推理的双重目标。通过端到端效果评测(NV H20,DeepSeek-V4-Flash FP8),「C++ Wrapper + Triton」 比 TileLang 快 12.24%,比 Python Wrapper 版快 40.39%。

配置
FlagGems算子(C++ Wrapper + Triton)
TileLang 算子(DeepSeek原版)
Python Wrapper+ Triton算子
端到端吞吐(tokens/s)
70.7
62.99
50.63
Part.04
开发者极致体验:
“发布即多芯”+ “极简部署”
1、核心能力与原版本对齐
经 GPQA_Diamond、AIME等权威评测集验证,FlagOS 适配后的 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,在语言理解、复杂推理、代码生成、数学计算等核心能力上,与 CUDA 原版本对齐,可放心应用于金融、教育、政企服务、代码开发等场景,无需担心适配导致业务效果折损。
DeepSeek-V4-Pro 1.6T 万亿参数模型已经在摩尔线程、海光、沐曦、华为昇腾四款国产芯片完成了基于FlagOS技术栈的适配,并通过了
下一页上一页  (2/4)
回帖(11):
11 # huwg
05-09 08:12
谢谢分享
10 # huwg
05-09 08:12
了解一下
9 # huwg
05-09 08:12
来看看
8 # z3960
05-09 05:58
了解一下
7 # z3960
05-09 05:58
来看一看
6 # srwam
05-08 20:30
看后续
5 # srwam
05-08 20:30
了解一下
4 # srwam
05-08 20:30
来看看
3 # ddwg0818
05-08 19:22
只是来看看!
2 # ddwg0818
05-08 19:22
偶尔路过来支持!

全部回帖(11)»
最新回帖
收藏本帖
发新帖