首页| 论坛| 搜索| 消息
主题:八款国产AI芯片,Day0 实现 DeepSeek-V4 适配
爱我中华发表于 2026-05-08 14:15
初验。考虑到国产芯片当前的精度支持和显存大小,我们推出了int8的适配版本,更方便用户的实际部署使用。
2、极简部署:开箱即用,底层优化无感知
FlagOS 将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4代码框架中,开发者加载模型时,底层优化代码自动生效,无需手动添加任何 FlagOS 初始化代码。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,标准化 Docker 镜像 + 一键加速命令,解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。
Part.05
FlagOS 2.0 技术底座:
从大模型到智能体时代的全栈升级
DeepSeek-V4 系列模型的三重突破,依托的是 FlagOS 2.0 统一多芯片系统软件栈的全链路能力。从算子层、编译层、框架层到工具层,全链路为大模型跨芯适配提供技术支撑,将原本数周的适配周期缩短至数天,真正实现极速落地。
1、高性能算子库 FlagGems:核心算子深度适配,释放硬件算力
FlagGems 作为 FlagOS 核心的高性能通用大模型算子库,基于 Triton 语言实现,针对 DeepSeek-V4推理链路的核心算子进行了深度适配与优化,包括 MoE 专家调度、Attention 计算、RMSNorm 等关键计算模块,同时原生支持 NVIDIA、摩尔线程、沐曦、清微智能、天数等接近 20 家 AI 芯片。
2、统一 AI 编译器 FlagTree:一次编写,多芯编译
FlagTree 是 FlagOS 面向多 AI 芯片后端的统一编译器,基于 Triton 深度定制,可将 DeepSeek-V4的核心算子编译为英伟达、摩尔线程等十多种不同 AI 芯片后端可识别的指令,彻底解决不同芯片编译器生态割裂的问题,大幅降低算子跨芯片适配的开发成本。
3、模型跨芯迁移发布工具 FlagRelease:半自动实现模型跨芯迁移与版本发布
依托 FlagOS 全栈技术能力,FlagRelease 已完成 DeepSeek-V4在多种芯片上的模型迁移、精度对齐与版本发布,覆盖 HuggingFace、魔搭等开源社区平台。开发者可直接下载使用,无需自行迁移。截至本文发布,FlagRelease 已发布覆盖 10+ 家芯片厂商、12+ 款硬件、70+ 个开源模型实例的跨芯适配版本。
4、统一多芯片接入插件 vLLM-plugin-FL:无缝兼容原生使用习惯
vLLM-plugin-FL 是 FlagOS 为 vLLM 推理服务框架打造的专属插件,基于 FlagOS 统一多芯片后端开发,在完全不改变 vLLM 原生接口与用户使用习惯的前提下,实现多芯片推理部署。目前 vLLM-plugin-FL 已经支持了清微、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为、英伟达等多家芯片。
Part.06
开源共建:
FlagOS 持续做开发者的“跨芯适配后盾”
当下,"异构算力协同、大模型普惠落地"已成为全球开源开发者社区的核心热点,打破硬件生态隔离、让大模型在不同算力平台高效低成本运行,是无数开发者的核心诉求。FlagOS 从诞生之初就将开源开放、众智共建刻入技术基因,始终以开发者为中心,通过全栈开源的统一系统软件栈,把复杂的"M×N"硬件适配问题降维为"M+N",做每一位开发者最可靠的跨芯适配后盾。
全栈开源无保留,把技术主动权交给开发者
目前,FlagOS 已形成完整的开源技术体系,所有核心组件均已开源在 GitHub,同时开放了数十款最新的主流基础大模型、十多款 AI 芯片的适配方案与最佳实践,开发者可自由获取、深度定制:
四大核心技术库: FlagGems 通用大模型算子库、FlagTree 统一 AI 编译器、FlagScale 训练推理并行框架、FlagCX 统一通信库,覆盖算子开发、编译优化、并行计算、跨芯片通信全链路;
三大开源工具平台: FlagRelease 大模型自动迁移发版平台、KernelGen 算子自动生成工具、FlagPerf 多芯片评测工具,提供从模型适配、性能评测到工程落地的一站式工具链;
全场景扩展生态: vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增强组件,以及 FlagOS-Robo 具身智能工具包,覆盖大模型训练、推理、应用全场景。
多路径参与共建,全层级开发者均可入局
我们为不同技术方向、不同经验层级的开发者,设计了低门槛、多路径的共建方式,无论你是 AI 开发新手,还是深耕系统软件的资深专家,都能在 FlagOS 社区找到自己的位置。
新手友好型参与: 可在对应仓库提交 Issue 反馈 bug、优化建议,或是补充完善文档、撰写入门教程与最佳实践,也可参与社区技术交流、分享使用经验,零门槛开启开源之旅;(社区文档参考https://docs.flagos.io/en/latest/)
深度技术共建: 开发者可直接参与 FlagGems 算子开发与优化(新增算子 / 性能调优 / 新芯片后端支持)、KernelGen 算子生成流程增强、FlagTree 编译器后端扩展等核心模块,与社区核心开发者一起推动技术演进。
生态工具贡献: 开发者可基于 FlagOS Skills 开发面向国产芯片的 AI Agent 专业技能,帮助更多开发者通过自然语言完成芯片适配、模型部署等操作。
文章来源:智源FlagOpen
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
下一页上一页  (3/4)
回帖(11):
11 # huwg
05-09 08:12
谢谢分享
10 # huwg
05-09 08:12
了解一下
9 # huwg
05-09 08:12
来看看
8 # z3960
05-09 05:58
了解一下
7 # z3960
05-09 05:58
来看一看
6 # srwam
05-08 20:30
看后续
5 # srwam
05-08 20:30
了解一下
4 # srwam
05-08 20:30
来看看
3 # ddwg0818
05-08 19:22
只是来看看!
2 # ddwg0818
05-08 19:22
偶尔路过来支持!

全部回帖(11)»
最新回帖
收藏本帖
发新帖