预见

微软“AI超级工厂”启用:算力版图的下一次跃迁

作者: 预见大模型 顶级公司 算力租赁 算力 #顶级公司 #算力租赁 #算力

原文链接: https://www.yjnt111.top/article/1106

微软正式启用一座被称为“AI 超级工厂”的新型设施,通过将跨越不同州的数据中心连接为统一系统,构建起一个具备行星际规模算力的分布式AI超级工厂,并让其具备了统一调度与整体运算的能力。

据微软披露,位于亚特兰大的新一代AI数据中心已于10月投入运营,这是“Fairwater”系列中的第二个设施,并通过专用网络与威斯康星州的首个Fairwater站点相连。该系统整合了数十万个最新NVIDIA Blackwell GPU,构建起全球首个真正意义上的跨州AI计算集群。这标志着微软基础设施体系进入新的整合模式,数据中心已经可以进行跨地域整合。

“AI 超级工厂”的特点

传统数据中心的逻辑是线性的:一栋建筑、一套机房、一个运营单元。微软此次启用的“AI 超级工厂”,则改变了这一范式。

微软从零开始设计了“Fairwater”系列数据中心。位于亚特兰大的设施占地85英亩,建筑面积超过100万平方英尺,其设计做了“适AI化改造”。

首先就是高密度架构,即采用创新的双层建筑设计,以便在更小的物理空间内容纳更多GPU,从而缩短内部通信延迟。其次是,尖端芯片系统,该系统可以部署英伟达的GB200 NVL72机架规模系统,并可扩展至数十万个英伟达Blackwell架构GPU。再次,为了应对GPU集群产生的高热量,微软设计了复杂的高效液体冷却系统。该系统几乎不消耗水资源,其初次注水量仅相当于20个美国家庭一年的用水量。最后而在数据中心内部,微软则通过高速网络将所有GPU紧密连接,确保信息在芯片之间快速流通。

“AI 超级工厂”的优势

总体来看,AI超级工厂有三个传统数据中心没有的优势:

首先就是分布式结构,两座数据中心在新的网络结构下被整合,使算力不再局限于单点,而是可以跨站点协同运行。这种结构对于大型模型训练至关重要,因为模型规模不断增长,训练任务需要跨多个节点并行处理,而通信延迟和带宽瓶颈会成为主要障碍。

微软的做法,就是通过一套更高带宽、更低延迟的跨站互联架构,让大规模训练任务能够保持效率。

其次是推理和训练可在同一网络体系中切换

公开报道提到,这个网络结构既面向训练,也面向推理任务。训练需要巨量并行算力,推理需要更高实时性和更灵活的资源调度。把二者统一在同一网络框架中,能让算力资源在多个任务类型之间自由分配。它提升的是效率,也提升整体基础设施的可持续性。

第三是算力密度的提升。目前,微软正在使用新一代的数据中心站点结构。虽然公开资料没有披露具体硬件参数,但可以确认新设计的重点指向更高的能效、更好的网络能力以及面向大型模型的结构优化。

为什么微软启用“AI 超级工厂”?

微软的动机与全球 AI 大模型高速发展一致,即传统数据中心的线性增长方式无法支撑指数级增长的模型训练与推理需求。故而,微软此举更多的还是为了应对当下和未来的AI训练对于算力几乎无限的需求。

而对于微软来说,其还有OpenAI、微软Copilot、法国Mistral AI及埃隆・马斯克的xAI等关键客户,超级工厂也是为了更好的服务这些公司。

除了提升绝对算力,微软也希望通过超级工厂提升其综合能力。

随着 AI 规模的扩大,分布式、可调度的算力网络将逐渐取代传统的单站结构。

微软此次将两座新一代数据中心联为整体,是其基础设施走向网络化的一步。这种网络化结构,对后续模型演进极具价值。

此外,多站点结构还能提升微软算力体系的韧性。单点结构在面对突发负载、任务爆发或局部故障时更脆弱。跨站点的算力池能在任务变化中保持稳定,减少系统瓶颈。这对于大规模推理服务尤其重要。

© 2025 预见 - 用冷静的智慧预见下一个未知

京ICP备2025144713号-1

主体备案单位:北京预见花开网络科技有限公司

微信扫码分享
微信扫码分享本文