对标英伟达!华为AI新技术,有望大幅提高算力利用率

近日有消息称,华为将于本周发布AI领域突破性技术成果,有望解决算力资源利用效率难题。该技术延续“以软件补硬件”的创新思路,消息中反复出现的关键数字引人注目——将GPU、NPU等算力资源利用率从行业平均30%-40%大幅提升至70%。
在美国对中国进行芯片封锁和AI对算力需求越来越高的大前提下,用软件补硬件,似乎是国内解决算力问题最好的方式。
如果说过去两年是“谁有更多GPU,谁就更有话语权”,那接下来,很可能会变成:“谁把GPU用得更满,谁才是真赢家”。
华为正在把赌注压在后者。
从30%到70%:算力利用率为什么重要?
先把数字摆在桌面上。
目前,大型AI训练与推理集群里,一个很尴尬的现实是:算力利用率常年只有三四成 。GPU很贵,NPU也不便宜,但它们大量时间在“发呆”。
造成这个结果原因有很多,比如任务切分不均,部分卡忙到飞起,部分卡空转;通信、I/O、缓存等环节时不时堵车;训练任务对资源的预留过于保守,宁可浪费也不敢挤满;异构集群里,不同芯片之间协同得并不顺畅等。
结果就是,企业花的是“满负荷的钱”,拿到的却是“半负荷的产出”。
有知情人士提到,华为这项新技术将对标英伟达2024年底收购的以色列公司Run:ai的核心技术,旨在通过软件创新,实现英伟达、昇腾以及其他三方算力的统一资源管理与利用,屏蔽算力硬件差异,为AI训练推理提供更高效的资源支撑。
要理解“对标英伟达”是什么意思,就得先明白Run:ai是干嘛的。
这家公司2018年成立,2024年底被英伟达以大约7亿美元收购。七年时间基本只做一件事:让GPU集群被更高效地使用 。比如它可以提供可视化的GPU资源看板,让团队知道每块卡在干嘛;细到个人和项目级别的算力配额管理;训练任务排队、调度、优先级控制。
也就是说,Run:ai更像是GPU集群的“数据产品经理”,负责让昂贵的GPU不闲着、不乱用。
英伟达在完成对Run:ai的收购后,宣布将这套 GPU 编排软件开源,并已开放其中的 KAI Scheduler 等核心组件;当前 Run:ai 主要服务于英伟达 GPU 环境,作为 NVIDIA Run:ai 平台深度嵌入其算力生态。
华为想做的,是一块更大的“统一调度面板”
那华为的新技术,和Run:ai的思路,究竟哪里相似?
从现有信息可以看出几个关键点:
盯着“以软件补硬件”
公开描述中,多次提到这项技术的核心,是通过软件智能调度方式,释放已有硬件的潜力,而不是先去谈下一代芯片。
这和Run:ai的路线非常接近:不是再造一块GPU,而是把手里所有GPU管好、用满。
瞄准集群级、系统级的资源管理
信息显示,这项技术要“统一管理”不同来源的算力资源,把GPU、华为昇腾NPU以及其他厂商的算力拉到同一个资源池里进行调度。
其目标是“打平”底层硬件差异,让上层开发者看到的是统一算力池,而不是一堆互不兼容的设备列表。
在复杂多云、多集群环境里,让AI任务只面对一个抽象层,而不是一堆具体的GPU机型。
把“屏蔽硬件差异”当作卖点
相关表述里,反复出现“屏蔽算力硬件差异”“统一资源管理与利用”。
这在技术上意味着:不再让业务团队为“这段代码跑在A卡还是B卡”而纠结,
而且不再把GPU/NPU的型号细节暴露给每个工程师,同时把复杂性压到平台层解决。
总体上,之于国内来说,这项技术就是为了减少对英伟达的依赖。
“国产算力”叙事,会多出一条“效率曲线”
对华为来说,这不是单一产品的竞争,而是为“国产算力”叙事增加了新维度:
除了谈芯片指标,还可以谈系统调度能力、软件栈厚度、异构集群的控制力。
华为选择在这个节点,把资源投入到算力调度和效率提升上,既是对现实瓶颈的回应,也是对未来格局的一种押注。
当利用率从三四成提升到七成,算力的故事就不再只是“谁家卡更猛”,而是“谁能把整套系统跑到更优状态”。
而在这条新赛道上,英伟达和Run:ai先走了一步,华为现在开始追上来。真正的差距与变化,要等这项技术正式落地、在真实集群里跑过几轮之后,才会显露出来。