首页| 论坛| 搜索| 消息
主题:AI降本变天了!英伟达Jet-Nemotron让速度飙53倍,成本砍半
爱我中华发表于 2025-09-27 21:20
9月20日,马斯克的Grok-4-fast横空出世——这东西推理效率直接把带“路由器”的GPT-5都按在地上摩擦,不少人第一反应是:“又堆了多少显卡?老黄这波又赚麻了吧?”
但这次还真不是单纯靠硬件堆出来的,要是扒开Grok-4-fast的底层逻辑,你会发现真正的功臣可能不是英伟达的显卡,而是他们刚拿出来的一套算法“黑科技”。
甚至有网友在Reddit上直接猜:“Grok-4-fast怕不是照着英伟达那篇Jet-Nemotron的论文做的?”
这话不是没道理,毕竟Grok-4-fast最牛的地方,就是在不砍性能的前提下把推理成本压了下来,而英伟达那篇论文,刚好就解决了行业头疼了好几年的“又慢又费钱”的问题。


1、

之前AI圈搞模型,总想着靠堆硬件解决效率问题——显卡越堆越多,算力越搞越大,可模型厂商的账单也跟着越变越长,用户等推理结果的耐心也被磨没了。
英伟达的团队也看明白了这个问题,干脆换了个思路:别死磕硬件了,咱们从算法架构上动刀子。
于是就有了Jet-Nemotron这套“混合结构”模型,简单说就是在保证accuracy的同时,把速度提上去、成本降下来。
光说不练假把式,看数据就知道这东西有多狠,拿最小的Jet-Nemotron-2B来说,跟Qwen3、Llama3.2这些顶尖开源模型比,性能一点不差,速度却直接飙了53倍。
就拿MMLU-Pro测试来说,它不光比Qwen3-1.7B-Base准,生成速度还快了47倍;就算遇上参数更大的模型也不虚,在MMLU测试里,居然能超过DeepSeek-V3-Small和Moonlight这些参数量15B的模型。
能做到这一步,全靠一个叫PostNAS的新框架,这东西跟以前的模型设计思路完全不一样,不是从零开始训练,而是拿一个已经预训练好的全注意力模型当底子,把里面的MLP权重冻住不动,只琢磨怎么改进注意力机制。
这么做的好处太明显了:训练成本直接降了好几个数量级,不用再烧钱从头训模型;而且省下来的精力能全花在优化架构上,相当于给老房子翻新,不用拆了重盖,还能装上新家电。


2、

具体来说,PostNAS分四步走,每一步都踩在行业的痛点上。
第一步是“全注意力层放置”。以前搞模型,大家都习惯在所有层里全用全注意力,觉得这样效果好。
但实际上很多层都是“冗余”的,纯属浪费算力——就像你家里每个房间都装空调,其实客厅和卧室装就够了,其他房间开着也是白耗电。
英伟达的做法是,先搭一个同时有全注意力和线性注意力的“超级网络”,再通过特征蒸馏训练子网络,最后用beamsearch找出最优的注意力层布局。
结果证明,真不用所有层都上全注意力:只留2层全注意力,PostNAS的准确率就能到49%,而均匀放全注意力的模型才40%。相当于用更少的“空调”,还能保持室内温度舒适。
第二步是挑最优的线性注意力模块,全注意力层定下来后,剩下的层得用线性注意力模块填,英伟达一口气测试了六种当前最火的模块:RWKV7、RetNet、Mamba2、GLA、DeltaNet和GatedDeltaNet。
测下来最能打的是GatedDeltaNet,它能赢主要靠两个“小设计”:一个是“数据依赖门控机制”,相当于给模型装了个“路由器”,能根据输入内容判断该重视新信息还是旧记忆,比如做阅读理解时多关注原文,做数学题时多调用之前学的公式。
另一个是“Delta规则”,不是每次都把记忆全清了重存,只更变有变化的部分,就像手机相册只更更新照片,不删旧照片,既省内存又不丢信息。

但英伟达没满足于此,直接在GatedDeltaNet的基础上搞出了更强的JetBlock。
以前的线性注意力模块用的都是“静态卷积核”,不管输入啥内容,提取特征的方式都不变,就像用一把固定的刀切所有菜,有时候切得好,有时候就切得乱七八糟。
JetBlock改用了“动态卷积”,加了个“卷积核生成器”,能根据输入特征自动调整卷积核——切肉用砍刀,切菜用菜刀,切水果用水果刀,不管啥输入都能精准处理。
测试结果也很给面子:JetBlock在数学推理和检索任务上比GatedDeltaNet更准,速度还没掉,跟表现最差的Mamba2比,优势直接拉满。
第三步是“硬件感知架构搜索”,架构和模块定下来后,还得优化超参数,比如key/value的维度、注意力头的数量这些。
以前大家都靠参数量判断模型效率,觉得参数越少越高效,其实这是个误区——参数量不能直接反映硬件上的实际表现,就像光看发动机排量不能判断汽车实际油耗,还得看变速箱和车身重量。

英伟达的思路是,直接以“生成吞吐量”为目标来调参数。
他们发现,影响长文本生成速度的关键不是参数量,而是KV缓存大小——只要KV缓存不变,不同参数规模的模型吞吐量差不多。
于是他们保持KV缓存大小不变,只在key维度、value维度和注意力头数上做小范围调整。
结果很惊喜:优化后的模型,在吞吐量没降的情况下,参数量从1.7亿涨到1.84亿,数学准确率还从32.8%提到了34.8%。
相当于给汽车加了点重量,却让油耗没变、动力更强了,妥妥的“反向优化”奇迹。
第四步就是把这些优化整合起来,形成一套完整的方案。


3、

这套PostNAS方案,给AI行业带来的影响可能是颠覆性的:首先,推理时GPU使用时长能减47倍,模型响应速度直接起飞。
其次,内存需求变小了,以前得用高端显卡才能跑的模型,现在用便宜的硬件也能部署;最后,吞吐量上去了,厂商不用加服务器就能服务更多用户——相当于开餐馆,不用扩大店面,就能让翻台率翻倍,还能少雇厨师。
更关键的是,PostNAS的适用范围特别广,只要是预训练好的Transformer模型,都能嵌进去用,而且不用重新训练。
不管是大厂还是小团队,都能拿来降本增效,相当于给所有AI玩家发了一把“降本神器”。


4、

更让人兴奋的是,Jet-Nemotron还是开源的,论文通讯作者HanCai已经在Github上说了,等法律审查过了就放代码和预训练模型。
到时候大家都能拿过来用,AI圈的“降本竞赛”恐怕要彻底变天。
现在回到最开始的问题:Grok-4-fast真的用了Jet-Nemotron的技术吗?
虽然还没得到xAI的官方确认,但两者的表现实在太像了——都是在不砍性能的前提下大幅降本,而且Grok-4-fast的降价幅度,刚好跟英伟达论文里预测的“便宜20到50倍”对上了。

当然也有网友质疑,说Grok-4-fast降价可能只是营销手段,是xAI在烧钱抢市场,不能说明用了新技术。
但说实话,短时间内再搞出一套能让成本降20倍以上的算法,可能性实在太低了。
就算Grok-4-fast没直接用Jet-Nemotron,这套算法也已经给行业指了条明路——以后AI降本,靠的不是堆硬件,而是算法架构的巧劲。


5、

值得一提的是,这篇突破性论文的作者全是华人。
一作顾煜贤是清华大学的博士生,师从黄民烈教授,一直研究怎么提升LLM全生命周期的效率;通讯作者HanCai是英伟达的研究科学家,本科和硕士都毕业于上海交通大学,之前在麻省理工读的博士,研究重心就是高效基础模型,他的论文在GoogleScholar上已经被引了超1万次。
能在AI核心技术上有这样的突破,不得不说华人学者在AI领域的实力越来越顶了。

不管Grok-4-fast和Jet-Nemotron的关系最终如何,有一点是肯定的:AI行业已经从“堆硬件拼算力”的时代,慢慢转向“靠算法提效率”的时代了。
以前大家比的是谁的显卡多、谁的算力强,以后比的就是谁的架构更优、谁的算法更巧。
而Jet-Nemotron这套方案,很可能就是打开下一个AI降本周期的“钥匙”。
下一页 (1/2)
回帖(14):
14 # hsieh2h
10-29 16:58
谢谢分享
13 # hsieh2h
10-29 16:58
了解一下
12 # hsieh2h
10-29 16:58
进来看一看
11 # zhwy
10-08 03:52
谢谢分享
10 # zhwy
10-08 03:50
已经了解
9 # zhwy
10-08 03:49
来瞧一瞧
8 # 任逍遥
09-29 12:54
不错,了解了
7 # 任逍遥
09-29 12:54
也就看看
6 # 任逍遥
09-29 12:54
来看一下
5 # z3960
09-29 10:46
了解信息

全部回帖(14)»
最新回帖
收藏本帖
发新帖