预见

每秒110万个Token,微软英伟达为何能破AI推理纪录?

原文链接: https://www.yjnt111.top/article/1036

当下AI推理的速度极限在哪里?这是很多人都感兴趣的话题。

近期,双方联合宣布,他们在Azure ND GB300 v6虚拟机上,成功实现了每秒约110万个token的AI推理速度。这一成绩一举刷新了当前业内的推理纪录,也意味着AI模型的实时处理能力,进入了一个前所未有的阶段。

从技术验证到纪录诞生

Azure ND GB300 虚拟机由英伟达 Blackwell Ultra GPU 提供动力,具体基于 NVIDIA GB300 NVL72 系统。该系统在单个机架级配置中集成了 72 颗 NVIDIA Blackwell Ultra GPU 和 36 颗 NVIDIA Grace CPU。

在此次测试中,微软运行的是Meta的Llama2 70B大型语言模型。数据显示,其推理速度达到了每秒110万个token。与上一代 NVIDIA GB200 相比,Azure ND GB300 在推理性能上提升了 27%,而功耗仅增加了 17%。与 NVIDIA H100 一代相比,NVIDIA GB300 NVL72 的推理性能提高了近 10 倍,在机架级测量时能效提高了近 2.5 倍。

关于此次测试的具体参数,微软表示,单个 NVL72 机架的 Azure ND GB300 v6 虚拟机实现了总计每秒1,100,000个token的推理吞吐量。这刷新了 AI 推理领域的新纪录,超越了此前在同一 NVIDIA GB200 NVL72 机架上使用 ND GB200 v6 虚拟机所创下的每秒 865,000 个 token 的纪录。由于该系统包含 72 颗Blackwell Ultra GPU,其性能大致相当于每颗 GPU 约 15,200 个 token / 秒。

英伟达随后在技术社区博客中确认,这一测试在多节点、多GPU的分布式场景中实现了高线性扩展性,性能几乎接近理论极限。

Blackwell B200 GPU采用双芯片设计,配备高带宽HBM3e显存,并与Grace CPU通过NVLink高速互连,使数据传输延迟显著降低。

Azure ND GB300 v6实例支持每节点多GPU协同,整体功耗与能效得到优化。微软在这次测试中充分利用了NVLink互联的拓扑优势,实现GPU间高效通信,减少传统PCIe架构下的同步损耗。

这种硬件与网络架构的结合,使得Llama 2 70B能够在大规模多GPU场景中获得稳定的高吞吐率。微软工程团队指出,推理时的token生成速率之所以能突破百万大关,关键在于Blackwell平台对推理负载的动态分片与缓存优化能力。

单靠硬件堆叠并不能造就纪录。Azure AI Supercomputing团队对软件栈进行了系统级优化。

此次测试使用了NVIDIA的TensorRT-LLM推理引擎,并基于MLPerf Inference v5.1的Llama 2 70B标准基准测试进行验证。微软的系统工程团队还针对分布式通信进行优化,使多节点GPU之间的同步更加高效,从而将性能发挥到近乎极限。

虽然微软未公开所有底层框架细节,但结合其过往实践,业界推测该团队在调度、内存访问及通信协议方面进行了深度调整,以实现高效的计算分配与负载均衡。

这些软硬件协同优化共同塑造了系统级的协同效率。110万个token的纪录,是跨层次技术集成的成果,而非单一硬件的性能堆叠。

为什么是微软和英伟达

微软与英伟达的关系已经从合作伙伴升级为共生生态。Azure是英伟达AI Cloud的首批部署平台之一,而英伟达的每一代GPU迭代,几乎都伴随着Azure的早期测试。

在AI推理领域,微软正寻求通过Azure AI Infra确立行业标准,而英伟达则希望通过Blackwell架构进一步巩固其GPU主导地位。这次纪录的刷新,既是技术验证,也是一场商业信号的释放。

对微软而言,这一成果意味着Azure可为企业客户提供“推理即服务”(Inference as a Service)的可验证性能保证,成为大型模型落地的关键基础。对英伟达而言,这展示了Blackwell系列在推理领域的强大能效与可扩展性,为后续架构迭代铺平道路。

过去几年,AI行业经历了从模型规模竞赛到推理效率竞赛的转变。模型训练的上限已经触及物理与经济瓶颈,而推理端的优化成为新的增长焦点。

在这一过程中,Azure ND GB300 v6很可能成为行业性能的新基准。微软已表示,该实例类型将逐步投入商用,用于支持OpenAI、Anthropic及自研模型的高并发推理。

从速度到智能:新的算力哲学

技术的终极目标,从来不是速度本身,而是智能的规模化实现。

微软和英伟达的这次突破,让“实时AI”的概念更具现实性。AI助手、智能搜索、自动驾驶、机器人交互——这些场景的核心约束都在于推理延迟。如今,百万token每秒的速度意味着AI反应能力的量级飞跃。从1个token到110万个token,从毫秒到微秒,AI推理的时间尺度正在坍塌,而智能的形态正在每次速度突破中重塑。

© 2025 AI资讯 - 用冷静的智慧预见下一个未知

京ICP备2025144713号-1

主体备案单位:北京预见花开网络科技有限公司