预见

AI芯片太“热”,微软用微流体打破算力瓶颈

原文链接: https://www.yjnt111.top/article/573

众所周知,任何电器用久了就会发热,进而降低运行速度。在超算的建设中,GPU工作带来的巨大热量是非常大的麻烦。

尤其在AI训练场景中,芯片温度的飙升不仅影响性能,还可能引发硬件故障。最近,微软推出了一项新技术——微流体,试图一定程度上解决问题

据透露,这项技术本身就是由AI设计的、灵感则来自植物叶脉。这项技术不仅刷新了芯片散热的认知,也可能重塑未来AI基础设施的格局。

微软的冷却“新脉络”

微软的这套冷却系统并非传统意义上的液冷。它采用微流体技术,在芯片表面布设“液体静脉”,让冷却液像血液一样在芯片内部流动,而非传统的外部散热。这些微流通道由AI设计,结构灵感来自植物叶脉,目的是最大化热量传导效率。

据报道,这项技术已经在微软的AI服务器中试验应用。液体冷却系统能将芯片温度控制在更低水平,甚至支持GPU超频运行。在一年内,微软对该系统进行了四次迭代,冷却效率提升了三倍。这意味着,原本受限于热量的算力瓶颈,正在被逐步打破。

更重要的是,这套系统不依赖风扇或传统散热器,而是通过微流体直接接触芯片表面,进行热交换。液体在通道中流动,带走热量,再通过外部冷却模块降温后重新循环。这种方式不仅更高效,还更安静,适合部署在高密度数据中心。

技术细节:AI设计+生物启发

微软的冷却通道并非人工绘制,而是由AI算法生成。AI在模拟热量分布后,自动设计出最优的液体流动路径。这些路径类似植物叶片中的脉络,能在最短距离内将热量导出。芯片内部微流道设计,通道尺寸精确控制在微米级别,确保冷却液能直接接触发热最密集的区域。

这种设计方式有两个好处:一是结构高度定制化,能针对不同芯片布局进行优化;二是制造成本相对可控,通道可以通过微加工技术批量生产。且管道用特殊材料开发,使芯片在保持高强度计算性能的同时,能够承受液体流动带来的压力和温度变化。

此外,微软还在冷却液的选择上做了优化。液体需具备高热容量、低腐蚀性和良好的流动性。目前使用的液体尚未公开,但据称其性能远超传统水冷液体。

对AI训练的影响:算力释放,能耗下降

AI训练对算力的需求极高,尤其是大模型训练,动辄需要数百张GPU协同工作。传统风冷系统在高密度部署下容易失效,导致GPU降频甚至宕机。而微软的液体冷却系统能在高负载下保持芯片稳定运行,显著提升训练效率。

更关键的是,液体冷却能降低整体能耗。风冷系统需要大量电力驱动风扇和空调,而液冷系统的能效比更高。据微软内部测试,在同等算力条件下,液冷系统的能耗下降了约30%。这对数据中心运营成本是一个巨大利好。

此外,液冷系统还能延长硬件寿命。芯片在高温下容易老化,液体冷却能保持温度稳定,减少热应力,从而降低故障率。这意味着,AI训练不仅更快,还更可靠。

对超算中心的影响:密度提升,布局重构

超算中心的核心指标之一是算力密度,即单位面积内能部署多少算力。传统风冷系统受限于散热空间,难以实现高密度部署。而液体冷却系统能将热量迅速导出,允许服务器更紧凑地排列,且散热效率更高。据测试,新技术方案在处理AI推理任务时,芯片表面温度可降低15-20℃。

这将直接改变超算中心的布局方式。未来的数据中心可能不再需要庞大的空调系统,而是采用模块化液冷架构。每个服务器模块自带冷却系统,插入即可运行,像拼积木一样构建算力集群。

此外,液冷系统还能支持边缘计算部署。在空间受限的场景下,如车载计算、工业控制等,传统风冷难以满足需求,而液冷系统的小型化特性正好填补这一空白。

可能的后果:产业链重构与技术标准变革

微软的液体冷却系统不仅是一项技术突破,也可能引发产业链的重构。首先是冷却液体的供应链。高性能液体的研发和生产将成为新兴市场,吸引化工企业和材料公司进入。

其次是服务器制造商需要重新设计硬件架构,适配液冷系统。这将带动一波服务器更新换代,推动液冷标准的建立。目前,液冷尚未普及,不同厂商的系统难以兼容。微软的方案可能成为行业参考,引发标准化进程。

微软的野心:冷却只是开始

从技术演进来看,微软的液体冷却系统只是其AI基础设施战略的一部分。通过冷却技术突破算力瓶颈,微软能在AI训练、推理和部署上占据优势。尤其是在大模型竞争日趋激烈的当下,谁能提供更强算力,谁就能训练出更强模型。

液冷新技术的出现,将让微软的超算中心产生更高的效率。

当然,探索液冷技术的也并非微软一家,谷歌、亚马逊和Meta都在此领域有自己的尝试。未来液冷技术可能还会有新的突破。微软的这次尝试,或许只是揭开了新一轮技术创新的序幕。

© 2025 AI资讯 - 用冷静的智慧预见下一个未知

京ICP备2025144713号-1

主体备案单位:北京预见花开网络科技有限公司