首页| 论坛| 搜索| 消息
主题:八款国产AI芯片,Day0 实现 DeepSeek-V4 适配
爱我中华发表于 2026-05-08 14:15
日前,DeepSeek最新估值超3000亿,背后是这8款国产芯片力挺。
2026年4月24日中午,DeepSeek 对外发布并开源了全新DeepSeek V4 系列模型。根据参数大小,模型分为DeepSeek-V4-Pro 1.6T 和 DeepSeek-V4-Flash 284B 两个版本。
众智 FlagOS 社区第一时间完成 DeepSeek-V4 系列模型的多芯片适配与推理部署,已支持海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯、英伟达、清微智能(可重构计算架构)等9种 AI 芯片,并同步提供面向开发者的模型、代码与部署方案。特别一提的是,这是基于FlagOS生态首次在国产可重构芯片完成的千亿大模型DAY0适配。这意味着,DeepSeek-V4 不再局限于少数高端硬件,通过统一开源系统软件栈 FlagOS,能在多种 AI 芯片上快速迁移、稳定运行。对于开发者、芯片厂商和产业用户而言,这不仅是一次模型适配,更是多元 AI 算力走向可用、易用、好用的重要一步。
DeepSeek-V4 系列2款模型均支持百万 Token 上下文,架构上引入混合注意力机制(CSA + HCA),在百万 Token 场景下 Pro 相比 V3.2 仅需 27% 推理 FLOPs 和 10% KV 缓存;采用流形约束超连接(mHC)增强跨层信号传播,并使用 Muon 优化器提升训练收敛和稳定性。两个模型均在 32T+ Token 上预训练,后训练采用两阶段范式:先通过 SFT + GRPO 强化学习培养领域专家能力,再经在线策略蒸馏统一融合。Pro-Max(最大推理模式)在代码基准达到顶尖水平,在推理和 Agent 任务上大幅缩小与领先闭源模型的差距;Flash-Max 在给予更多推理预算时可接近 Pro 级推理性能,但受限于参数规模,在纯知识类任务和复杂 Agent 工作流上略有差距。
性能参考如下官方评测结果:
围绕 DeepSeek-V4 系列模型的多芯适配,此次 FlagOS 系统软件技术栈突破了三大关键技术:基于 FlagGems 全量替换 DeepSeek 原版算子,实现算子层多芯片统一适配;为 o-group 采用独立张量并行策略解锁更多低显存场景;完成 “FP4+FP8混合精度” 的原生权重到 FP8/BF16 的精度路径转换。当下,国内大规模部署的 AI 芯片,大都不支持 FP4 。英伟达也只在 Blackwell 及之后的高端芯片才支持 FP4。三项关键技术突破让 DeepSeek-V4 能在当前各种厂商的主流 AI 芯片上稳定运行,不再受限于支持 FP4 和大显存的少数高端 AI 加速卡。
Part.01
多芯版 DeepSeek V4 的获取与部署
FlagOS 技术栈为用户提供了“开箱即用”的多芯版 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。依托 FlagOS 的统一算子库 FlagGems、统一编译器 FlagTree 和训推框架 FlagScale,海光、沐曦、华为、摩尔线程(FP8)、昆仑芯、平头哥、天数、英伟达(FP8)、清微等9款芯片已经完成 DeepSeek-V4 系列模型的跨芯适配及验证。
用户在多芯片上部署 DeepSeek-V4 时,通常会先遇到几大挑战:算子缺失或不匹配,分布式部署多卡多节点配置复杂,模型格式与精度适配复杂。DeepSeek-V4 的原始权重多为量化格式(如 FP8),而各芯片对低精度数据类型的支持方式不一,权重转换和适配过程繁琐且容易出错。为解决上述性能与部署难题,FlagOS 提供了专门的适配仓库。
一键启用高性能算子库:通过设置环境变量 USE_FLAGGEMS=1,可自动切换至 FlagGems 为 DeepSeek-V4 深度优化的算子实现,无需手动逐算子替换,大幅提升多款芯片上的开箱可用性。
算法优化多卡通信:当模型并行数(MP)大于配置组数(o_groups)时,通过设置 USE_OGROUPS_COMM=1,自动启用分组投影独立通信组功能,精准解决 o_groups 张量切分数量限制。该仓库还提供了单机8卡、双机16卡的完整运行脚本(run_mp8.sh、run_node_0.sh 等),开箱即用。
自动化权重转换工具:内置纯 PyTorch 实现的 convert_weight.py 脚本,能够直接将 FP8/FP4 量化权重可靠地反量化为 BF16 格式,解决权重迁移到各种国产芯片上的兼容性问题。
量化加速功能:为 MoE 专家引入 INT8 逐通道对称量化,支持 W8A8 推理,能够进一步降低机器资源需求,提升性能与效率,并同时提供对应的量化配置和参数转换脚本方便用户使用。
GitHub仓库地址:
https://github.com/flagos-ai/DeepSeek-V4-FlagOS
方式一:FlagOS 安装部署
访问官方仓地址https://github.com/flagos-ai/FlagGems,安装 FlagOS 算子库 。# Install base dependenciespip install -r requirements.txtpip install flag-gems==5.0.2
访问仓库https://github.com/flagos-ai/flagtree,安装FlagOS 编译器。# 安装命令以英伟达平台为例:python3 -m pip uninstall -y tritonpython3 -m pip install flagtree===0.5.0 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple
使用 DeepSeek-V4-FlagOS 代码仓库进行部署
官方仓库:https://github.com/flagos-ai/DeepSeek-V4-FlagOS
单机(8卡):可使用如下命令,或者直接运行bash run_mp8.shexport USE_FLAGGEMS=1 #开启加速torchrun --nproc-per-node 8 generate.py --max-new-tokens 64 --ckpt-path /path/to/model_bf16_mp8 --config config_from_bf16.json --input-file prompt.txt
可使用如下命令,或者直接在Node 0上运行bash run_node_0.shexport NCCL_SOCKET_IFNAME=eth0export NCCL_IB_DISABLE=1export USE_FLAGGEMS=1export USE_OGROUPS_COMM=1brtorchrun --nnodes=2 --nproc_per_node=8 --node_rank=0 --master_addr=--master_port=29500 generate.py --ckpt-path /path/to/model_bf16_mp16 --config config_from_bf16.json --input-file prompt.txt --max-new-tokens 64
对于 Node 1 情况,可使用如下命令,或者直接在 Node 1上运行 bash run_node_1.shexport NCCL_SOCKET_IFNAME=eth0export NCCL_IB_DISABLE=1export USE_FLAGGEMS=1export USE_OGROUPS_COMM=1brtorchrun --nnodes=2 --nproc_per_node=8 --node_rank=1 --master_addr=--master_port=29500 generate.py --ckpt-path /path/to/model_bf16_mp16 --config config_from_bf16.json --input-file prompt.txt --max-new-tokens 64
方式二:直接下载模型镜像
用户可以直接拉取在 FlagRelease 上发布的迁移后的模型文件、代码和镜像。以下是迁移适配后的几种 AI 芯片的模型版本,开箱即用、无需迁移。
魔搭平台
清微版https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-tsingmicro-FlagOShttps://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-tsingmicro-FlagOS
沐曦版https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-metax-FlagOShttps://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS
摩尔线程版https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-mthreads-FlagOShttps://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS
海光版https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-hygon-FlagOShttps://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-hygon-FlagOS
平头哥真武版https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-zhenwu-FlagOS
昆仑芯版https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-kunlunxin-FlagOS
华为昇腾版https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-ascend-FlagOShttps://modelscope.cn/models/FlagR
下一页 (1/4)
回帖(11):
11 # huwg
05-09 08:12
谢谢分享
10 # huwg
05-09 08:12
了解一下
9 # huwg
05-09 08:12
来看看
8 # z3960
05-09 05:58
了解一下
7 # z3960
05-09 05:58
来看一看
6 # srwam
05-08 20:30
看后续
5 # srwam
05-08 20:30
了解一下
4 # srwam
05-08 20:30
来看看
3 # ddwg0818
05-08 19:22
只是来看看!
2 # ddwg0818
05-08 19:22
偶尔路过来支持!

全部回帖(11)»
最新回帖
收藏本帖
发新帖