预见

马斯克的AI巨舰:xAIColossus超级计算机到底是什么?

原文链接: https://www.yjnt111.top/article/423

Dojo关停了,但Colossus还在。

在人工智能的竞速赛道上,马斯克一直在探索,Dojo和Colossus都是见证。

xAI Colossus超级计算机——数字世界的巨舰。它不是一台普通的服务器堆栈,而是一座由100万颗英伟达H100 GPU构成的庞然大物,承载着xAI的全部野心,也可能重塑全球AI算力格局。在Dojo于今年8月关停后,更成了马斯克逐梦AI圈几乎最大的一张底牌。

Colossus=芯片无底洞+电老虎+吞金兽

Colossus(巨人),这个名字本身就透露出它的野心。它是由马斯克旗下的xAI团队主导建设的超级计算机集群,核心由10万颗(一期工程10万,后加到20万,规划100万正在建设中)NVIDIA H100 GPU构成。

这座AI集群从开始建设到完成组装仅花了122天就完成了(一期工程),目前已经上线运行了约1年有余(2024年9月3日正式宣布上线)。

以一期工程来说,ColossusAI超级计算机集群采用的是超微电脑(Supermicro)的服务器,其基于NVIDIA HGX H100方案,每个服务器中拥有8个 H100 GPU,封装在Supermicro的4U通用GPU液冷系统内,为每个GPU提供简单的热插拔液冷。这些服务器装载在机架内,每个机架可容纳8台服务器,也就是说每个机架内有64个GPU。1U歧管夹在每个HGX H100之间,提供服务器所需的液体冷却。每个机架的底部是另一个Supermicro 4U单元,这次配备了冗余泵系统和机架监控系统。

这些机架以8个为一组配对,每个阵列有512个GPU。每台服务器都有四个冗余电源,GPU机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。Colossus集群中有超过1500个GPU机架,或近200个机架阵列。

这些GPU是目前市面上最先进的AI加速芯片,专为大模型训练和推理而设计。Colossus的构建并非简单的硬件堆叠,而是一次系统性的算力革命。

这座超级计算机采用分布式架构,通过高效互联网络将每颗GPU连接成一个协同作战的整体。液冷系统贯穿其内部,像血管一样维持着温度的稳定,确保每个计算节点在高负载下依然保持冷却状态。

在网络方面,为了满足AI训练中对高带宽的需求,xAI在网络互连方面下了很大功夫。每个GPU都有一个400GbE的专用NIC(网络接口控制器),每台服务器还有一个额外的400Gb ENIC。这意味着每台HGX H100服务器都有3.6Tb/s的以太网带宽。这应该是最领先的以太网应用案例,xAI超算并没用使用主流的IB(Infini Band)网络或其他特殊网络,整个AI超算都基于标准的以太网。

除了算力和网络,这样庞大的超算群对于能源的消耗也是天文数字。

起初,本地电网只能提供8兆瓦电。这点能量仅够点亮4000块GPU,不到总量的5%。马斯克不惜重金买来一排移动发电机,勉强凑出43兆瓦,让3.2万块GPU动了起来。

为了“伺候”这个庞然大物,当地电力公司紧急升级变电站,增容到50兆瓦,但依旧不够用,据推算跑满10万块GPU,至少需要155兆瓦(1.55亿瓦)。到了2024年秋天,马斯克亲自谈判,从田纳西河谷管理局(TVA)手里“抢”到150兆瓦供电配额。

这样规模的能耗自然引发了当地居民和环保部门的不满。但马斯克似乎意犹未尽,他在一期工程启动之初,就提出把超算规模再扩大10倍,也就是把GPU数量从现在的10万提升到100万。

有人推测,届时能耗将达到2吉瓦(20亿瓦),相当于差不多200万户当地家庭用电。整个项目的总投入将达到百亿美元量级!

为何而建:Colossus的诞生背景

Colossus的主要任务是为xAI旗下的Grok系列大模型提供训练与推理支持。这些模型具备多模态能力,能够处理文本、图像、语音等多种数据形式,对算力的需求极为苛刻。

Colossus的出现,正是为了解决这一瓶颈。它不仅是技术上的突破,更是xAI战略布局的核心支柱。

据说马斯克创建xAI的初衷,是打造一个“理解宇宙本质”的人工智能。这个目标听起来哲学意味浓厚,但在技术层面,它意味着对大模型的极致追求。Grok系列模型是xAI的核心产品,具备多模态能力,能够处理文本、图像、语音等多种数据形式。

然而,大模型的训练需要海量算力。GPT-4的训练据称动用了上万颗GPU,而Grok的目标远不止于此。为了摆脱对外部算力的依赖,马斯克决定自建超级计算机集群。这不仅是技术上的自主,也是战略上的独立。

此外,马斯克对AI安全问题一直保持高度警惕。他曾多次公开表示,AI的发展必须受到控制,不能被少数公司垄断。Colossus的建设,也可以看作是他对AI治理的一种回应——通过掌控算力,掌控AI发展的节奏。

硬核之心:技术细节与组成结构

Colossus的技术架构堪称“工业奇迹”。它的核心将是100万颗英伟达H100 GPU,这些芯片通过NVLink和InfiniBand高速互联,构成一个低延迟、高带宽的计算网络。每个节点之间的通信几乎无缝,像神经元一样协同运作,形成一个庞大的“数字大脑”。

为了支撑如此庞大的计算需求,Colossus配备了高吞吐量的分布式存储系统,支持PB级数据读写。训练大模型时,数据流动如潮水般涌动,而这套存储系统就像港口,稳定地接收和分发每一份信息。调度系统则是这艘巨舰的指挥中心,使用定制化的AI任务调度器,实时优化资源分配,确保每个GPU都在最合适的任务中发挥最大效能。

液冷系统是Colossus的一大亮点。传统风冷方式在如此密集的计算环境中已无法满足散热需求,而液冷技术则像一条冷静的河流,穿梭于每个芯片之间,带走热量,维持系统稳定。据估算,Colossus的PUE值低于1.2,远低于行业平均水平,在能效方面也走在前列。

这一切构成了Colossus的硬核之心。它不是一个简单的算力堆叠,而是一个精密协作的系统,每个组件都在为AI的未来默默运转。

Colossus的战略意义与影响

Colossus的建成,不仅是技术上的突破,更是战略上的布局。在全球AI算力竞争日趋激烈的背景下,掌握算力就意味着掌握主动权。马斯克深知这一点,他不愿将AI的未来交给云服务商或其他科技巨头,于是亲自下场,打造了这座算力堡垒。

通过Colossus,xAI实现了算力自主,摆脱了对第三方平台的依赖。这种自主不仅提升了研发效率,也增强了数据安全性。在AI模型日益复杂、数据日益敏感的今天,掌控算力就是掌控风险。

Colossus还带动了整个AI基础设施的升级。它的建设推动了液冷技术的普及,促进了高效互联网络的发展,也为分布式调度系统提供了实践场景。上下游产业链因此受益,形成了一个新的技术生态。

更重要的是,Colossus为AI治理提供了新的可能。马斯克一直强调AI不能被少数公司垄断,而Colossus的出现,正是对这一理念的践行。它不仅是技术的结晶,更是理念的延伸。

未来之路:超级计算机的下一站

Colossus只是起点。未来的超级计算机将更大、更快、更智能。异构算力融合将成为趋势,GPU、TPU、FPGA等多种芯片协同工作,提升计算效率。与此同时,面对巨额能耗,绿色算力也将成为重点,只有采用可再生能源供电,降低碳足迹,才能实现可持续发展。

边缘扩展是另一个方向。将部分算力部署到边缘节点,可以实现分布式智能,提升响应速度,降低延迟。而量子计算的融合,则可能彻底改变算力格局。当量子芯片与AI模型结合,我们或许将迎来一个全新的智能时代。

马斯克的目标不仅是建造一台超级计算机,而是打造一个AI基础设施帝国。Colossus是这个帝国的核心,也是未来AI世界的基石。在这个算力为王的时代,Colossus的出现像是一声号角,宣告着新一轮AI竞赛的开始。它不仅是技术的结晶,更是战略的象征。未来的AI,不只是算法的较量,更是算力的博弈。而马斯克,已经在这场博弈中占据了先手。

未来还有哪些公司会“照方抓药”,搞出下一个Colossus?我们拭目以待

© 2025 AI资讯 - 用冷静的智慧预见下一个未知

京ICP备2025144713号-1

主体备案单位:北京预见花开网络科技有限公司