电子发烧友网报道(文/莫婷婷)在AI技术飞速发展的今天,算力已成为决定企业竞争格局的核心要素。作为全球科技巨头,谷歌不仅在AI算法和大模型领域持续引领创新,更通过自主研发的张量处理单元(Tensor Processing Unit, TPU)构建了一套完整的AI算力基础设施体系。
11月,谷歌宣布第七代 TPU v7(代号 Ironwood)将在后续几周大规模上市。与此消息同步出来的还有:允许客户在自有数据中心部署Ironwood。该消息一出,被认为是谷歌向英伟达发起挑战的信号,一度拉升其股价,截至24日收盘价318.47美元,该股今年以来累计上涨87.79%,大幅超过英伟达同期35.94%的涨幅。
TPU芯片可部署在客户数据中心,英伟达紧急回应
TPU芯片是谷歌于2015年首次推出的专用集成电路(ASIC),围绕张量计算展开,可以说是专为AI而生,用于谷歌的模型训练和云端部署。
不同于通用GPU依赖高度可编程的微内核结构,TPU在芯片中堆叠大规模矩阵运算单元和高速内存,将芯片资源高度集中于深度学习中最常见的运算——如卷积、矩阵乘法和激活函数,从而实现极致的能效比。
数据显示,2015年谷歌发布TPU V1,带有8位低精度乘法的硬件单元。10年后,TPU芯片已经进化至第七代,在能效、内存等各个方面都迎来升级。
在2025 年 Hot Chips 2025 大会上,谷歌公开TPU v7 Ironwood的细节。Ironwood单芯片算力达4614 TFLOPS(FP8精度),集群规模达到9216颗芯片,较2022年推出的TPU V4翻倍(集群规模为4096颗芯片)。显存容量高达192GB HBM3e,带宽约为7.4 TB/s。通过Google Jupiter 数据中心网络,整个系统可以连接高达数十万个TPU。
在能效方面,谷歌宣称其最新TPU相较前代Trilium在每瓦性能提升两倍,这使其在大规模推理场景中具备显著的成本优势。
在当前AI芯片市场中,英伟达凭借其CUDA生态和GPU平台长期占据主导地位。业内常将TPU v7 Ironwood与英伟达B200作比较,在部分关键参数上,TPU v7已具备与英伟达Blackwell架构B200 GPU匹敌甚至略胜一筹的性能水平,能够在特定场景下展现出强大的竞争力。
例如,B200 GPU提供192GB HBM3e(2x96GB),带宽为8 TB/s,单芯片算力为4500 TFlops(FP8精度)。在互联架构方面,英伟达和谷歌已经构建了各自的“护城河”:GB200 NVL72系统通过NVLink可以连接36个Grace CPU和72个Blackwell GPU。但Ironwood在谷歌ICI(芯片间互联)技术下,可以实现在单Pod内能以9.6 Tb/s的带宽连接数千颗芯片,高拓展性让大模型能快速实现迭代。
英伟达似乎也感受到谷歌带来的竞争压力,在社交平台X上发文回应称:“我们对谷歌的成功感到高兴——他们在人工智能方面取得了巨大进展,而我们也将继续向谷歌供货。”同时强调:“英伟达领先行业整整一代,是唯一一个能运行所有AI模型、并在所有计算场景中部署的平台。”并指出,英伟达提供的性能、通用性性和可替代性更强的芯片,ASIC是为特定AI框架或功能设计的芯片。
可以看出,GPU和TPU是通用和专精之间的选择:GPU面向通用计算,TPU可面向专用优化范式。未来随着TPU专用芯片的发展,TPU与GPU之间的竞争是否会日益白热化,值得关注。
目前来看,业内已有多家巨头转向ASIC,例如马斯克宣布组建团队并在数据中心部署自研AI芯片。除了性能与能效优势外,更在于极具诱惑力的价格。
公开资料显示,相较于OpenAI所依赖的英伟达H100、A100等高端GPU,谷歌自研的TPU在实现相近算力水平的同时,成本仅为其五分之一。这意味着,在动辄部署数万颗芯片的大模型训练和推理场景中,采用TPU显示出强大的竞争力。浙商研究所预测,到2028年AI ASIC的市场规模约占AI芯片的19%。
从自用到外供:拿下100万定制大单,谷歌TPU商业化飞轮已启动
需要指出的是,最终谷歌的TPU芯片能够“拦截”下多少英伟达的市场份额,还得看其应用潜力。目前,谷歌TPU芯片未来市场能有多大,商用情况如何,能够带动哪些产业链的发展呢?
中泰证券等券商预测,2026年谷歌TPU芯片的出货量将远超其他ASIC芯片厂商,有望突破400万颗。这一趋势的背后,是谷歌自身AI业务扩张以及外部客户订单激增的双重驱动。
在客户情况方面,其中最具标志性的事件是近期谷歌与AI公司Anthropic签署了一份价值数百亿美元的协议,Anthropic将采购100万个定制TPU芯片,用于大模型的训练与推理。这笔订单标志着TPU正式进入商业级AI服务市场。
在TPU芯片外供之前,谷歌早已将其深度融入核心业务体系中。11月19日,谷歌发布了全新的推理模型Gemini 3。谷歌DeepMind研究团队将其称为“全球最先进的多模态理解模型、谷歌最强大的Agent编程和氛围编程模型”,该模型融合了文本、图像、音频等多种模态,具备推理、Agent等多种能力,是谷歌继PaLM之后又一里程碑式成果。
Gemini 3大模型正是基于Ironwood集群完成训练,支持100万个token的上下文窗口,基准测试中,Gemini 3 Pro获得1501 Elo分,成为LMArena大模型竞技场排名第一的大模型,成为当前全球综合能力最强的公开大模型。另一个具备说服力的是:Gemini 3 Pro已经支撑起谷歌的AI模式、Gemini App、NotebookLM等全部产品。
就在Gemini 3发布两天后,11月21日,谷歌正式发布了Gemini 3 Pro的新一代图像生成和编辑模型Gemini 3 Pro Image(即Nano Banana Pro),具备增强推理能力与知识库。
至此,谷歌不仅证明了TPU在超大规模模型训练中的工程可行性与性能优越性,更通过Gemini 3系列产品的成功落地,为TPU芯片的商业化铺平了道路——技术自证、业务闭环,形成强大飞轮效应。
“电算+光连”引爆AI基建革命,TPU将催生OCS红利
Gemini 3 Pro大模型之所以能成为“全球最先进的多模态理解模型”,其底层算力支撑正是第七代TPU芯片Ironwood。而Ironwood的性能突破不仅源于芯片本身的高算力,更关键在于其系统级架构创新——光电路交换机(OCS)。
Ironwood集群通过48台光电路交换机(OCS)互联,采用3D Torus拓扑结构,形成9216个TPU芯片组网,每个机柜单元包含96根光纤链路,实现高达9.6 Tb/s的芯片间互连带宽。
这种基于OCS的光交换网络不仅显著降低延迟与功耗,还支持零宕机扩展,为大规模的AI集群提供稳定高效的通信底座。尽管TPU芯片内部仍为传统CMOS电信号计算,但芯片间、机柜间的高速互联已转向光通信,包括第六代TPU芯片Trillium。再往前,其实谷歌在TPUv4(2022年)起,就在万卡集群中部署了 OCS技术。
随着谷歌 OCS 光路交换网络技术的成熟,其正加速构建起一个“电算+光连”的新一代AI基础设施。
来自SemiAnalysis的数据显示,谷歌定制化的OCS光路交换网络可将整体网络吞吐量提升30%,功耗降低40%,数据流完成时间缩短10%,网络宕机时间更是大幅减少达50倍。尤为关键的是,OCS架构具备出色的可扩展性和长期经济性,能帮助谷歌降低约30%的资本开支,为超大规模AI集群提供了高带宽、低延迟、高可靠且更具成本效益的互联底座。
这一趋势正强力拉动光模块产业链需求。市场调研公司Lightcounting预测,2024到2029年OCS市场将以28%的复合增速扩张。目前,中际旭创已经是谷歌光模块核心供应商,海外子公司TeraHop布局硅光OCS,预计将送样谷歌。除此之外,腾景科技通过 Coherent 间接向谷歌供应 OCS 光学模组,光库科技通过收购捷普切入OCS整机代工业务。预计光模块产业链上的企业能受益于TPU集群规模化部署,迎来新的成长机会。

