马斯克的巨硬计划到底有多“硬核”?
巨硬,一个从名字开始就在“致敬”微软的计划名字,如今已经走到了非常重要的节点上。
9月16日,作为此项目的筹划者,马斯克在X上发了一条信息,里面说到“我们在孟菲斯的CollosusII超级计算机上画了’MACROHARD’字样(即’巨硬’),它大到你在太空也能看见它”。
这颇具炫耀意味的行为艺术,背后是马斯克和其团队超高的工作效率。一期工程不到半年搞定,二期工程紧锣密鼓。马斯克正在用自己的方式,多快好省的建设自己的AI帝国。
这不是一次简单的技术升级,而是一场关于AI未来主导权的豪赌,更让世人看到了马斯克和其团队的效率。
Collosus:从零到巨兽,只用了六个月
Colossus(巨人),这个名字本身就透露出它的野心。它是由马斯克旗下的xAI团队主导建设的超级计算机集群,核心由10万颗(一期工程10万,2025年2月已有20万,其中5万块为H200GPU,规划100万正在建设中)NVIDIAH100GPU构成。
这座AI集群从开始建设到完成组装仅花了122天就完成了(一期工程),目前已经上线运行了约1年有余(2024年9月3日正式宣布上线)。
这个规模不仅超过了OpenAI当前使用的集群,也远远领先于甲骨文的云计算资源。更关键的是,这些GPU并非分散部署,而是集中在一个物理位置,形成了一个真正意义上的超级算力中心。
以一期工程来说,ColossusAI超级计算机集群采用的是超微电脑(Supermicro)的服务器,其基于NVIDIAHGXH100方案,每个服务器中拥有8个H100GPU,封装在Supermicro的4U通用GPU液冷系统内,为每个GPU提供简单的热插拔液冷。这些服务器装载在机架内,每个机架可容纳8台服务器,也就是说每个机架内有64个GPU。1U歧管夹在每个HGXH100之间,提供服务器所需的液体冷却。每个机架的底部是另一个Supermicro4U单元,这次配备了冗余泵系统和机架监控系统。
这些机架以8个为一组配对,每个阵列有512个GPU。每台服务器都有四个冗余电源,GPU机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。Colossus集群中有超过1500个GPU机架,或近200个机架阵列。
据报道,Collosus的目标是支持xAI的Grok模型训练。Grok是马斯克旗下xAI推出的类ChatGPT模型,已集成至X平台(原Twitter),并计划在未来全面替代现有的AI助手系统。
Collosus的建成,标志着马斯克在AI基础设施领域迈出了关键一步。他不再依赖外部云服务商,而是亲自掌控底层算力资源。这种垂直整合的策略,既能降低成本,也能提升训练效率。
Collosus的另一个侧面
起初,本地电网只能提供8兆瓦电。这点能量仅够点亮4000块GPU,不到总量的5%。马斯克不惜重金买来一排移动发电机,勉强凑出43兆瓦,让3.2万块GPU动了起来。
为了“伺候”这个庞然大物,当地电力公司紧急升级变电站,增容到50兆瓦,但依旧不够用,据推算跑满10万块GPU,至少需要155兆瓦(1.55亿瓦)。到了2024年秋天,马斯克亲自谈判,从田纳西河谷管理局(TVA)手里“抢”到150兆瓦供电配额。
但马斯克似乎意犹未尽,他在一期工程启动之初,就提出把超算规模再扩大10倍,也就是把GPU数量从现在的10万提升到100万。有人推测,届时能耗将达到2吉瓦(20亿瓦),相当于差不多200万户当地家庭用电。
整个项目的总投入将达到百亿美元量级!
巨硬计划的战略意图:不只是算力,更是控制权
马斯克的“巨硬计划”并非单纯的技术项目,它背后隐藏着深层次的战略意图。
首先,是对AI发展主导权的争夺。当前,全球AI算力主要掌握在微软、谷歌、亚马逊等科技巨头手中。马斯克通过Collosus计划,试图成为这个领域的新玩家,建立属于自己的AI基础设施体系。
其次,是对数据隐私和模型安全的掌控。马斯克曾多次批评OpenAI与微软的合作模式,认为其不透明且存在安全隐患。通过自建算力平台,马斯克可以确保模型训练过程的可控性,避免外部干预。
Collosus的未来:AI竞赛的分水岭?
Collosus的出现,可能会成为全球AI竞赛的分水岭。
首先,它将重塑AI基础设施的格局。过去,AI公司依赖云服务商提供算力资源,成本高昂且效率受限。Collosus的自建模式,为AI公司提供了新的范式。目前,微软也已经在美国的威斯康星建设专属自己的AI超级数据中心,甲骨文也搞了星际之门计划。“自力更生”会成为越来越多AI巨头的选择。
其次,它将加速AI模型的迭代速度。更强的算力意味着更快的训练周期,也意味着更快的产品上线节奏。xAI的Grok模型已经在Collosus上完成了多个版本的迭代。
第三,它将推动AI应用的多元化。Collosus不仅服务于语言模型,还支持自动驾驶、图像识别、脑机接口等多种AI任务。这种多任务支持能力,将使AI技术更快地渗透到各个行业。
当然,Collosus也面临挑战。硬件供应、能源调度、数据安全等问题,都是项目推进中的潜在风险。但以马斯克的执行力和资源整合能力来看,这些问题或许只是时间问题。
结语:马斯克的算力赌局,值得关注
在AI时代,算力就是生产力。马斯克通过Collosus计划,正在构建一个属于自己的AI帝国。
这场赌局,赌的是速度、规模、效率,也赌的是AI产业的未来模式。