昆仑芯超节点亮相，大模型推理成本有望大幅降低

2025-11-13 作者: 预见大模型 AI芯片顶级公司 #AI芯片 #顶级公司

原文链接： https://www.yjnt111.top/article/1103

11月13日，在百度世界2025大会上，百度昆仑芯超节点首次公开亮相，并宣布其已在内部实现大规模部署。

通过将多张昆仑芯AI加速卡整合为统一的超节点架构，在DeepSeek V3/R1 PD分离推理架构的优化下实现了单卡性能提升95%，单实例推理性能大幅提升高达8倍。

全新一代昆仑芯包括两款产品。其中，昆仑芯M100 针对大规模推理场景优化设计，提供极致性价比，将于2026年上市；昆仑芯M300面向超大规模多模态模型的训练和推理需求提供极致性能，将于2027年上市。

这是国产AI芯片的一次全新迭代，也是在大模型时代背景下，自研算力向上推进的一次信号释放。

在中国 AI 的产业链里，模型在前推，场景在扩张，数据在累积，而最最关键的算力端一直饱受关注。昆仑芯超节点的亮相，是国产算力体系在连续推进过程中的一个新节点。

性能提升助力算力部署

据百度内部人士透露，昆仑芯超节点已于今年4月在百度百舸5.0中全面启用，目前已实现大规模部署。借助该节点，目前业界最大规模的1万亿参数开源模型可在几分钟内、通过单一云实例完成运行。

该技术通过将多张昆仑芯AI加速卡整合为统一的超节点架构，在DeepSeek V3/R1 PD分离推理架构的优化下实现了单卡性能提升95%，单实例推理性能大幅提升高达8倍。这一性能突破对降低大模型推理成本具有直接意义。

目前，昆仑芯已累计完成数万卡部署，成为了百度AI关键底座。百度智能云也通过昆仑芯和百舸AI计算平台，为大批企业提供了高性能、可扩展的AI算力。凭借全栈AI云能力布局，百度智能云已连续六年位列中国AI公有云服务市场份额第一。

单卡性能提升 95%，意味着推理能力得到显著增强。从公开信息看，这一性能改善主要来自组合式架构优化、算子适配以及多卡整合。昆仑芯官方介绍中提到，通过将昆仑芯加速卡整合入超节点架构，结合推理架构优化，使得单实例推理性能可以进一步放大。

在本次展示中，昆仑芯超节点聚焦的是大模型运行场景，特别是推理任务。在实际业务里，推理的需求密度正在加速增长——从内容生成、知识抽取，到工业流程优化、企业工作流模型，大量业务依赖稳定而密集的推理能力。

昆仑芯体系的进化，不仅是硬件迭代，而是从芯片、板卡、软件栈到系统集成的一体化过程。这点从其官方描述“全栈式技术路径”中体现得清楚：不仅做芯片，也做调试、算子优化、系统架构，甚至包括散热、电源管理与监控体系。

这一轮亮相最关键的意义在于：从“芯片发布”迈向“超节点发布”。这不是简单的量变，而是整体计算结构的一种升级——从单卡能力转向整柜级部署能力。

昆仑芯官网显示，一个超节点机柜可支持 32–64 张加速卡，支持机柜间高速互联。可扩展至万卡级别的智算集群，整机柜采用高密度集成、液冷/风冷协同散热方案。这些信息显示，昆仑芯超节点定位于“可规模部署的计算基元”，其设计目标并非局限于实验室场景，而是进入实际应用的工程环境。

昆仑芯超节点的亮相，展示的是国产算力体系在工程化、系统化和规模化方向上的新成果。这一节点，意味着国产算力能力的进一步完善，也为大模型运行提供了新的基础单元。