我们用于描述技术的语言往往具有误导性,其目的是为了驯服和“驯化”概念。我们听说谷歌推出了一款新“芯片”。这是一个令人安心、耳熟能详的词。芯片,不过是一块可以握在手中的、毫不起眼的硅片。
这款超级计算机是以模块化方式构建的。 一个物理主机包含四颗 Ironwood 芯片,而一个装满主机的机架则构成一个包含 64 颗芯片的“立方体”(cube)。为了进一步扩展,这些立方体通过动态光路交换(Optical Circuit Switch, OCS)网络连接起来,使系统能将多达 144 个立方体连接成一个包含 9216 颗芯片的“超级集群”(superpod)。这种集群规模的架构不仅仅是为了体积;它提供了 42.5 FP8 ExaFLOPS 的计算能力,并可访问 1.77 PB 的共享高带宽内存。
要理解谷歌的造物,我们必须首先抛弃“独立产品”的陈旧观念。 真正的计算单元不再是处理器,而是数据中心本身。作为谷歌第七代张量处理单元(TPU),Ironwood 以“超级集群”的形式存在——一个由 9216 颗新芯片互连而成的、单一且内聚的超级计算机。这种庞然大物般的架构并非由简单的风扇冷却,而是依赖于工业规模的“先进液冷解决方案”——一个在其 10 兆瓦功耗下,为驱散巨大废热而设的至关重要的循环系统。
10 兆瓦(10 MW)是什么概念?这约等于一座小城市或一家大型工厂的耗电量。 这就是现代人工智能(AI)赤裸裸的“蛮力”规模。AI 不是飘渺、抽象的“云”。它是一种物理实体,一个重工业,它消耗原材料(在此即为行星规模的能源),以生产一种新的无形商品:合成智能。拥有 9216 颗芯片的 Ironwood 集群就是这个行业的新引擎,一个液冷巨兽,其存在的唯一目的,就是以迄今为止无法想象的规模进行思考。
这立即暴露了 21 世纪决定性技术的阿喀琉斯之踵。 这种级别的能源消耗,一旦扩展到整个行业,本质上是不可持续的。这个 10 兆瓦的集群是技术奇迹,同时也是沉重的环境负债。AI 故事的下半场,就是一场试图与这一根本事实相抗争的搏斗。
推理时代
在过去的十年里,AI 的核心挑战是“训练”(Training)。这是一个高成本、高耗时的过程,需要向模型灌输整个互联网的数据,使其“学习”语言、逻辑和推理。但那个时代即将结束。新的前沿是“推理时代”(Age of Inference)——即模型在训练完成后,持续进行的、大容量的、实时的“思考”过程。
每当 AI 回答一个问题、生成一张图片,或“主动检索并生成数据”时,它都在执行推理。正如谷歌自己所承认的,Ironwood 是其“首款专为推理而设计的加速器”。 这标志着一个关键的市场转变。这场战争不再仅仅是为了构建最大的模型,而是为了高效运行那些为谷歌 Gemini 等下一波“AI 代理(AI Agents)”提供动力所需的“大容量、低延迟的 AI 推理和模型服务”。
谷歌的真正战略在此刻显露无遗。Ironwood 不是待售的产品,它是谷歌“AI 超级计算机”(AI Hypercomputer)的基石组件。 这不仅是硬件,更是一个垂直整合的系统——硬件(Ironwood TPU 和新的基于 Arm 架构的 Axion CPU)与一套专有软件栈进行了“协同设计”(co-designed)。
这个协同设计的软件栈就是谷歌的战略护城河。 虽然它也提供对 PyTorch 等开源框架的“开箱即用”支持以吸引开发者,但该技术栈的真正优化是针对谷歌自己的 JAX 生态系统。
- XLA(加速线性代数)编译器 扮演着关键的翻译官角色,它将来自 JAX 和 PyTorch 等框架的高级代码转换为可在 TPU 芯片上高效执行的指令。
- **GKE(谷歌 Kubernetes 引擎)的新“集群控制器”(Cluster Director)**是整个系统的“管弦乐指挥”,这个软件能将 9216 颗芯片的超级集群作为一个单一的、高弹性的单元进行管理,通过拓扑感知实现智能调度和故障自愈。
- 对 vLLM 的原生支持则最大限度地提高了推理吞吐量——这是“推理时代”服务模型的关键。vLLM 利用高效的内存管理技术,允许开发团队以最小的改动在 GPU 和 TPU 之间切换工作负载。
过去十年,英伟达的霸主地位不仅建立在其 GPU 之上,更建立在其专有的 CUDA 软件平台——一条开发者难以逾越的“护城河”之上。谷歌的 AI 超级计算机,正是一次构建“围墙花园”(walled garden)的直接尝试。 通过仅为那些使用其技术栈的用户提供卓越的“性价比”,谷歌正将自己定位为 AI 经济的基础“公共事业服务商”。它不再像英伟达那样销售“汽车”,它的目标是销售驱动汽车的“电力”。
“造王者”与多云战争
这一战略的最终成效在 2025 年底得到了印证。 AI 领域的领军者、OpenAI 的主要竞争对手 Anthropic 宣布,将历史性地扩大与谷歌的合作伙伴关系,承诺使用其 TPU 基础设施(包括新的 Ironwood),规模惊人——“多达 100 万个 TPU”。
这不是一次随意的投资。这是一项价值“数百亿美元”的交易,将在 2026 年为 Anthropic 带来“远超 1 吉瓦(Gigawatt)”的计算能力。 仅此一项交易,就足以证明谷歌长达十年、耗资数十亿美元的自研芯片赌注是正确的。Anthropic 对此次豪赌的公开解释是“卓越的性价比和效率”——这清晰地表明,谷歌的垂直整合系统,已能为英伟达的统治地位提供一个极具说服力的经济替代方案。
但故事还有一个关键转折,它揭示了 AI 行业真正的权力动态。Anthropic 并非谷歌的专属客户。 在其公告中,Anthropic 小心翼翼地指出,亚马逊网络服务(AWS)仍是其“主要的训练伙伴和云服务提供商”。与 AWS 的合作建立在“雷尼尔计划”(Project Rainier)之上,这是一个使用数十万个亚马逊自研 Trainium2 加速器的大型集群。该公司正在奉行一种“多元化策略”,巧妙地在谷歌的 TPU、亚马逊的 Trainium 和英伟达的 GPU 之间纵横捭阖。
这不是优柔寡断,这是一种高明的生存之道。泄露的数据显示,Anthropic 仅在 AWS 上的计算成本就消耗了其收入的 88.9%。 这些 AI 实验室的生死存亡,完全取决于能否压低这笔天文数字般的开支。通过迫使巨头们陷入这场竞价战争,分析师估计,Anthropic 可能正以 30% 到 50% 的巨额折扣,来获取其业务中最昂贵的计算资源。通过公开与谷歌和亚马逊 同时 合作,Anthropic 已将自己塑造成了“造王者”(Kingmaker)。 它迫使云巨头们竞相压价,利用自己作为“战利品”的地位,让这些“超级规模企业”(Hyperscalers)反过来补贴它们高昂的算力账单。
这种动态已经从根本上改变了市场。最终的赢家将不是拥有最快芯片的人,而是拥有计算、功耗和成本最佳比例的人。“每瓦性能”不再是一个简单的环保口号,它已成为整个行业最核心的战略和经济战场。
新的硅晶泰坦:一个不安的寡头联盟
Ironwood 的推出是对英伟达的直接挑战,但这个战场早已拥挤不堪。这场 AI 军备竞赛正由一个新的硅晶泰坦寡头联盟主导,只有少数几家拥有足够资本和技术专长的公司,能为这场新的淘金热制造“铲子”。
- 卫冕冠军(NVIDIA): 英伟达的 Blackwell 架构 GPU(B100 和 B200)及其前辈 H100 仍然是行业标准。它们的统治地位受到 CUDA 软件护城河的保护,大多数 AI 研究者都依赖于此。
- 王位觊觎者(云巨头 & AMD):
- 亚马逊(AWS): 作为云服务商中自研芯片最成熟的玩家,AWS 采用了双芯片战略:“Trainium”用于高性价比的训练,“Inferentia”用于高速、低成本的推理。这套策略由 AWS Neuron SDK 软件层粘合,专为优化其自研芯片上的 PyTorch 和 TensorFlow 工作负载而设计。
- 微软(Azure): 为了服务其关键伙伴 OpenAI 的庞大需求,微软开发了自家的“Maia 100” AI 加速器,专为 ChatGPT 和 GPT-4 的工作负载而协同设计。Maia 100 是台积电 5 纳米节点上最大的处理器之一,功耗在 500W-700W 之间,同样配备了自家的软件栈。
- AMD: 英伟达的传统对手 AMD,正凭借其 Instinct MI300X 加速器在性能上展开直接竞争,该芯片在内存容量(192GB)等关键指标上已与新一代芯片持平。
这场企业军备竞赛由三个简单因素驱动:
- 成本: 设计自己的芯片是摆脱英伟达“70%区间中部”的利润率和高昂定价的唯一途径。
- 供应: 它提供了战略独立性,使企业免受长期困扰整个行业的英伟达 GPU 短缺问题的影响。
- 优化: 它允许企业追求谷歌那样的“每瓦性能”优势——一种为其特定软件和云工作负载“协同设计”的完美芯片。
云巨头们并不需要 杀死 英伟达。 他们只需要创造一个“足够好”的、可行的内部替代方案。这就能实现市场的“商品化”,为客户提供选择,并迫使英伟达降低价格,从而为云巨头们自己的资本支出节省数十亿美元。
这种权力集中的规模是难以想象的。包括谷歌、Meta、亚马逊和微软在内的主要科技巨头,仅在今年一年就准备斥资高达 3750 亿美元用于建设数据中心和采购 AI 硬件。这个新市场的准入门槛高得令人望而却步。这不是民主化,这是权力的巩固。AI 革命的胜负手,将不取决于车库里的某个聪明算法,而是取决于那五家有能力建造这些 10 兆瓦“大脑”的巨型企业。
2025 年 AI 加速器对决
Google Ironwood (TPU v7): 类型:ASIC。最大 HBM(内存):192 GB HBM3e。最大内存带宽:7.4 TB/s。关键扩展架构:9216 芯片超级集群 (9.6 Tb/s ICI)。主要用途:推理与训练。
NVIDIA Blackwell B200: 类型:GPU。最大 HBM(内存):192 GB HBM3e。最大内存带宽:8 TB/s。关键扩展架构:NVLink 5 (1.8 TB/s)。主要用途:通用训练与推理。
AMD Instinct MI300X: 类型:GPU。最大 HBM(内存):192 GB HBM3。最大内存带宽:5.3 TB/s。关键扩展架构:8-GPU 环形连接。主要用途:通用训练与推理。
AWS Trainium / Inferentia 2: 类型:ASIC。最大 HBM(内存):(Trn) N/A / (Inf2) 32 GB HBM。最大内存带宽:(Inf2) N/A。关键扩展架构:AWS Neuron SDK / 集群。主要用途:分离式:训练 (Trn) / 推理 (Inf)。
Microsoft Maia 100: 类型:ASIC。最大 HBM(内存):64 GB HBM2E。最大内存带宽:N/A。关键扩展架构:基于以太网的结构。主要用途:内部(OpenAI)训练与推理。
芯片战争的阴影
谷歌、英伟达和亚马逊之间的企业战争,是在一个更庞大、更具决定性的冲突——即中美之间的地缘政治“芯片战争”——的阴影下进行的。
从智能手机到最先进的军事系统,整个现代世界都建立在一条极其脆弱的供应链之上。台积电(TSMC)所在的台湾“硅盾”(Silicon Shield),生产着“全球约 90% 的最先进半导体”。 生产集中在台湾海峡这一“关键地缘政治爆点”,是全球经济最大的单一脆弱性。
近年来,美国已将这种依赖性武器化,实施“全面出口管制”,以“剥夺中国获取……先进芯片的渠道”,企图减缓其技术和军事崛起。作为回应,中国正“向其芯片制造雄心投入数百亿美元”,加速其“军民融合战略”,不顾一切地寻求“半导体自给自足”。
这种追求的化身是像华为这样的国家冠军企业。其开发本土 AI 芯片(如昇腾 910C)的努力,对英伟达在中国的主导地位构成了直接挑战。这种垂直整合,加上中国的“军民融合战略”,使得西方盟国越来越难以辨别中国供应链的哪些部分是可以安全接触的。
这种全球不稳定性给科技巨头带来了生存风险。台湾的一场军事冲突可能在一夜之间让 AI 行业陷入停顿。与供应链的灾难性崩溃相比,英伟达的长期缺货只是一个小麻烦。
从这个角度看,谷歌的 Ironwood 不仅仅是一款竞争性产品;它更是一种“企业主权”(corporate sovereignty)的宣示。 通过设计自己的定制芯片,谷歌、亚马逊和微软等公司得以“减轻供应链风险”并“减少对第三方供应商的依赖”。他们掌握了知识产权,不再依赖于单一公司(英伟达)或单一的脆弱地区(台湾)。他们可以实现制造伙伴的多元化,确保自己的商业模式能在地缘政治冲击中幸存下来。
企业军备竞赛和地缘政治竞赛,现在是同一枚硬币的两面。 谷歌和亚马逊的巨额投资,实际上是在执行美国的产业政策。他们正在打造一个西方盟友技术领域的产业脊梁(即“Chip 4”联盟),并拉开与中国本土解决方案(如华为昇腾 910C)之间的“技术距离”。
无法承受的计算之重
这又让我们回到了那个 10 兆瓦的集群。在企业和地缘政治野心的共同推动下,AI 军备竞赛正面临其物理极限。 “蛮力”扩张所带来的环境代价是惊人的。
Anthropic 与谷歌的 TPU 交易涉及“超过 1 吉瓦”的电力。这相当于 100 个 Ironwood 集群同时运行,或一座满负荷核电站的全部输出功率——而这仅仅是为一家公司服务的。 而这家公司只是众多公司中的一个。
一个“想法”的碳足迹正变得清晰得可怕。
- 训练一个大型 AI 模型可能会排放超过 62.6 万磅(约 28.4 万公斤)的二氧化碳,“大致相当于五辆美国汽车的终生排放量”。
- 向 ChatGPT 这样的 AI 提一个问题,所消耗的能源是“一次典型谷歌搜索的约 100 倍”。
- 生成式 AI 行业的总能源足迹正在“指数级增长”,并已“相当于一个低收入国家的能源消耗”。
问题不仅在于能源。数据中心还在“吞噬”一种更有限的资源:水。 它们需要“巨量的水来进行冷却”,给当地资源(通常是本已缺水的地区)带来巨大压力。据行业估计,数据中心每消耗一千瓦时(kWh)的能源,平均已需要消耗 1.7 升的水。
包括谷歌在内的整个行业,都在试图通过吹嘘“效率”提升来转移对这场危机的注意力。谷歌声称,Ironwood 的“能效比 2018 年的第一代 Cloud TPU 高出近 30 倍”。然而,这只是在转移视线。这是“杰文斯悖论”(Jevons Paradox)的一个典型例子:应用于稀缺资源的技术效率提升,并不会减少消耗,反而会因为使该资源更便宜、更容易获得,而增加总消耗量。
Ironwood 的效率非但不能解决环境问题,反而是在加速问题。 它使得构建更大的模型和处理更多的查询在经济上和技术上都成为可能,从而将总能源消耗推向新高。整个行业“速度优先于安全和伦理”的竞赛——这种草率已经导致了有据可查的失败(例如谷歌 Gemini 自己的偏见输出)——正在制造一场全球性的伦理危机,而环境破坏则成了资产负债表之外的巨大“外部性”成本。
这场伦理危机源于 AI 系统固化和放大人类偏见、威胁人权、以及通过虚假信息操纵公众舆论的潜力。 美国政府问责局(GAO)指出,即使有监控,这些被匆忙推向市场的系统仍然容易受到攻击,从而产生事实错误或带有偏见的内容。在这种“军备竞赛”的动态下,企业快速部署的目标压倒了安全协议,在创新与责任之间制造了根本性的紧张关系。
尾声:天空中的“逐日者” (Suncatcher)
谷歌的工程师们并非对这个悖论视而不见。他们看到了能源消耗曲线。他们明白 AI 的“蛮力”扩张在地球上已触及天花板。他们提出的解决方案,是对整个行业最完美、最超现实的隐喻。
这就是被称为“逐日者”项目(Project Suncatcher)的长期“登月”研究计划。
该计划是:将 AI 数据中心发射到太空中。 这些“由太阳能驱动的小型卫星星座”,配备谷歌的 TPU 并通过“自由空间光通信”相连,将被部署在“晨昏同步低地球轨道”(dawn-dusk sun-synchronous low-earth orbit)上。在那里,它们将接收到“近乎持续的日照”来解决电力问题,同时,太空的真空环境将为“无需用水的冷却”提供解决方案。
这不是幻想。谷歌已经在粒子加速器中测试了其 Trillium 世代的 TPU,以模拟近地轨道的辐射环境,结果芯片“在没有损坏的情况下幸存下来”。 与 Planet Labs 合作的原型发射计划于 2027 年初进行。
“逐日者”项目,是谷歌对地球局限性的默认。 它承认了整个行业所选择的道路——一条由 Ironwood 这样的 10 兆瓦大脑驱动的道路——在地球上是不可持续的。用谷歌自己的话来说,该项目的目标是“最大限度地减少对地球资源的影响”,因为他们自己的发展蓝图所带来的“环境负担”已经变得过于沉重。
这是“技术崇高感”(technological sublime)的终极体现。这场追求神一般智能的 AI 军备竞赛,正在创造一个这样的未来:我们自身好奇心的计算成本是如此高昂,以至于我们必须真正“逃离”地球才能维持它。 Ironwood 芯片是引擎,AI 超级计算机是工厂,芯片战争是阴影,而“逐日者”项目则是逃生舱——一次绝望的、辉煌的、且在逻辑上无可挑剔的、向虚空的纵身一跃。
然而,这种逻辑也面临着其自身深刻的技术和经济挑战。怀疑论者很快指出,太空并非冷却的灵丹妙药,它反而是“现存最好的热绝缘体”。 太空数据中心无法被动冷却,它需要与太阳能电池板尺寸相当的、巨大而复杂的散热器。这些系统还必须应对极端的维护成本,以及不断摧毁处理器的太空辐射——所有这些障碍,都使这个“逃生舱”成为了一场真正天文数字级别的赌局。
