预见

云芯片进入下半场:谷歌、亚马逊、微软与英伟达的新战局

原文链接: https://www.yjnt111.top/article/354

谷歌不再满足于在自家后院舞刀弄枪,它的TPU芯片正推开数据中心的大门,走向更广阔的战场。

近日,谷歌与一家名为Fluidstack的小型云服务商达成协议,将在后者位于纽约的数据中心部署谷歌自研的张量处理单元(TPU)芯片。这一举动打破了TPU过去仅在谷歌自家数据中心部署的“自囚”局面,标志着谷歌AI战略出现重大转型。

不仅如此,谷歌也在接洽其他以租赁英伟达GPU为主营业务的云服务提供商。这意味着,谷歌正以自用型AI ASIC领域龙头的身份,向长期主导AI芯片市场的英伟达GPU发起直接挑战。此举可以看作是“云芯战争”进入下半场的一个标志。

一、巨头博弈,谷歌TPU的“走出去”战略

谷歌在AI芯片领域一直扮演双重角色:一方面作为英伟达GPU的最大客户之一,将这些芯片通过Google Cloud租赁给OpenAI、Meta等公司;另一方面又始终雄心勃勃地研发自家AI芯片TPU。

据多位参与谈判的知情人士透露,谷歌最近接洽了一批以租赁英伟达GPU为主营业务的小型云服务商,提议在这些公司的数据中心部署谷歌的TPU芯片。目前谷歌已经与至少一家云服务商达成协议:Fluidstack同意在其纽约数据中心部署谷歌的TPU。

此外,谷歌也在尝试与那些“背靠英伟达扶持”的新兴云服务供应商开展合作,有意拉拢英伟达阵营的“盟友”。

对于谷歌为何首次选择将TPU部署在第三方云服务商的数据中心,业界看法不一。有分析认为,这可能是因为谷歌自建数据中心扩容的速度赶不上内部和市场对算力激增的需求;也可能是谷歌希望借助其他平台为TPU寻找更多新客户,比如各类AI应用开发者——这和目前云服务商租赁英伟达显卡给客户的模式类似。

无论出于什么动机,在他人数据中心部署TPU都意味着谷歌开始更直接地与英伟达竞争,因为这些机构对英伟达GPU的采购需求将由此减少。

据报道,谷歌甚至承诺如果Fluidstack无法承担新建纽约数据中心的租赁费用,将提供最高32亿美元资金“兜底”,足见其推广TPU的决心。

TPU芯片走出谷歌自有数据中心,标志着其从内部自用迈向对外输出算力的新阶段。谷歌正以硬件供应商的角色参与巨头博弈,直接挑战英伟达在AI芯片领域一家独大的现状。

二、路线对比,海外大厂的芯片自研之路

在AI芯片自研方面,海外科技巨头们选择了不同的路径。

·英伟达以通用GPU称霸,凭借CUDA软硬件生态构筑起近乎垄断的优势。

·谷歌则开发专用AI加速芯片TPU,针对机器学习工作负载进行优化。

·亚马逊推出了自研训练芯片Trainium和推理芯片Inferentia,已在AWS云服务中提供算力选项。

·微软虽然目前主要依赖英伟达GPU来支撑Azure云服务,但据透露自2019年以来也在秘密研发代号“Athena”的AI芯片,意在降低对英伟达的依赖。

各大巨头根据自身业务与技术优势探索不同的芯片道路,使得云端AI算力之争呈现出多元化格局。

三、生态破局,谷歌TPU的竞争优势

TPU面临的最大挑战不在算力而在生态。正如英伟达CEO黄仁勋所言,开发者更偏好GPU——因为GPU用途更广泛、软件支持更强。缺乏生态支撑,再好的芯片也难以撼动英伟达的地位。

尽管如此,谷歌正从性能、成本、工具链三方面逐步强化TPU的竞争力:

首先,在硬件性能方面,TPU最近两代产品表现亮眼。自去年12月谷歌面向外部客户开放第六代TPU(代号“Trillium”)以来,市场需求相当旺盛。今年4月,谷歌再接再厉推出的第七代TPU(代号“Ironwood”),称这是该公司性能最强、可扩展性最高的AI加速器。Ironwood是谷歌首款专为大规模AI推理任务设计的芯片,标志着TPU开始全面进军超大规模推理应用领域。

其次,在成本效率方面,TPU的优势日益凸显。据业内分析,谷歌新一代TPU的算力与能耗比相较GPU有明显提升,整体成本效率大幅改善,这已成为吸引越来越多机构关注TPU的主因之一。

第三,软件工具链的支持也在不断完善。今年谷歌对JAX框架的TPU支持进行了重大改进,让外部开发者可以更高效地利用TPU算力。JAX是谷歌推出的高性能计算库,可让Python代码在TPU上高效运行。长期以来,有限的第三方工具曾限制TPU在谷歌体系外的广泛应用,如今这一障碍正逐步消除。得益于工具链的升级,就连埃隆·马斯克新创立的xAI公司也开始对采购TPU表现出兴趣,其很大程度上正是看中了这些新改进为TPU生态带来的潜力。

可以预见,随着上述优势的积累,TPU生态正吸引越来越多的目光。

四、战略转型,谷歌为何大力推广TPU芯片

谷歌积极向外推广TPU芯片,背后有多重战略考量:

首要是降低对英伟达的依赖。作为英伟达算力芯片的顶级买家,谷歌深知过度依赖单一供应商的风险。通过发展自研芯片,谷歌希望减少外部供货的不确定性,掌控成本并确保供应链稳定。

其次是开拓新的收入来源。谷歌内部曾讨论通过扩大TPU业务为公司创造更多营收,并减轻云计算部门对昂贵英伟达芯片的依赖。据两位前高管透露,高层甚至考虑过将TPU直接销售给Google Cloud以外的客户——这意味着谷歌有意将TPU打造为对外输出的商业产品,而不仅是内部解决方案。

再次,提供TPU算力服务也可提升谷歌云的竞争力。TPU为那些希望寻求GPU替代方案的客户提供了高性能且成本可控的选项,使Google Cloud更具特色和吸引力。

最后,更长远的考量在于对AI生态主导权的争夺。通过推广TPU,谷歌希望在未来AI技术栈中占据更主动的位置。推广自研芯片有助于谷歌塑造属于自己的软硬件标准,确保其AI模型和服务在自家硬件平台上获得最佳支持。这将使谷歌在AI时代的产业链中拥有更主动的战略地位。

五、前景展望,云芯战争进入新阶段

短期来看,谷歌仍面临生态建设方面的挑战。尽管TPU性能在不断提升,但英伟达CUDA软件生态在开发者社区中根深蒂固,占据主导地位。要让开发者从习惯的GPU平台迁移到TPU,需要大量时间和资源投入来完善工具链和培养生态,因此TPU大规模普及在短期内仍有不小阻力。

中期而言,谷歌TPU业务的潜在价值正引起业界关注。有分析师预测,如果谷歌将TPU业务与旗下AI研究机构DeepMind合并独立上市,市场需求将非常强劲,其估算这一业务的潜在估值可达约9000亿美元。

长期来看,AI计算架构可能走向“混合”新常态。未来的大型AI基础设施将同时采用多种芯片架构,针对不同任务选择最适合的硬件:训练阶段或许仍主要依赖GPU,推理部署阶段则更多使用TPU等专用加速芯片,以更好兼顾灵活性与效率。

云服务市场正经历从通用硬件、经“软件定义硬件”阶段到软硬件垂直整合的新变革。各大云厂商不再满足于采购通用芯片,而是根据自身工作负载定制优化硬件,以实现性能和成本的最优平衡。

谷歌将TPU推向外部只是这场云芯战争的序幕。随着谷歌、亚马逊、微软等云计算巨头纷纷加码自研芯片,英伟达一枝独大的格局正逐步被改写。

© 2025 AI资讯 - 用冷静的智慧预见下一个未知

京ICP备2025144713号-1

主体备案单位:北京预见花开网络科技有限公司