为什么大模型落地,会更离不开推理GPU?
一、从造神到日常运营
新闻里常见这样的标题:“某公司买了几万张 H100(英伟达高端 GPU,用于训练和推理)训练大模型”。这容易让人误以为,大模型的主要成本都在训练阶段。事实并非如此。
训练和推理的差别在于成本曲线 :
训练 :集中在少数时间段,属于一次性资本开支(CAPEX),是研发的起点。
推理 :从模型上线那一刻开始,每次调用都在产生成本,属于运营开支(OPEX),是长期持续的负担。
换句话说,训练决定模型能否诞生,而推理决定模型能否被日常使用、能否真正规模化服务。两者缺一不可,但从现金流结构来看,推理的占比更大、持续时间更长。
想象一个普通白领的一天:早上用 Copilot(微软的智能助手)写邮件,中午让 AI 做 PPT,晚上随手问 ChatGPT(OpenAI 的对话模型)周末去哪玩。看似轻描淡写的几次操作,背后全是云端推理 GPU 在毫秒级完成的计算。训练像“造神”,推理则是“让神下凡、为千行百业打工”。一个是起点,一个是长跑。
二、云端推理的本质:OPEX,而非 CAPEX
CAPEX (资本性支出)就像修高铁,花大钱一次性建起来;OPEX (运营开支)就像高铁每天跑车、交电费、发工资,是日复一日的开销。
训练 :一次性集中投入,周期性发生。
推理 :电费、GPU 折旧、散热、带宽、运维,每天都在持续发生。
现实案例 :据行业估算,ChatGPT 每天调用量在数亿级别,其长期累计推理账单显著高于单次训练消耗。
这并不是说训练不重要,而是说明两者性质不同。训练像“建厂”,推理像“开工生产”。资本市场不会只盯着工厂盖得有多大,还要看这工厂能不能天天开工、稳定赚钱。
三、为什么云端推理更重要:三条主线
1.成本逻辑
推理调用次数比训练多几个数量级。降不下来,规模就上不去;规模上不去,商业模式就跑不通。
2.体验逻辑
用户不在乎你训练时用了多少 GPU,只在乎问一句话是不是 0.5 秒能回、价格是不是够低。延迟(响应速度)和吞吐量(并发能力)直接决定产品口碑。
3.商业逻辑
大部分 AI 公司最终靠 SaaS(Software as a Service,软件即服务)订阅或 API(应用编程接口)调用收费。推理效率直接决定毛利率和盈利能力。
投资视角 :谁能把推理成本压到行业最低,谁就能最快跑通商业闭环。资本市场给高估值看的,不是训练有多轰动,而是推理能否长期复利。
四、云端推理的“三重门”:延迟、吞吐量、TCO
推理想跑赢,就得过三道门槛。
第一重门:延迟(Latency,单次响应时间)
网购页面转圈 10 秒你肯定关掉,大模型回答也一样,必须毫秒级。
技术武器:量化(降低计算精度)、剪枝(去掉冗余参数)、TensorRT(英伟达推理优化工具)、高速互联 NVLink(GPU 高速总线)。
第二重门:吞吐量(Throughput,单位时间处理能力)
双十一支付宝一秒处理几十万笔支付,大模型推理一秒要抗住百万级请求。
技术武器:动态批处理(把小请求打包成大任务)、HBM(High Bandwidth Memory,高带宽内存)喂饱 GPU。
第三重门:TCO(Total Cost of Ownership,总拥有成本)
出租车要跑得快(低延迟)、拉得多(高吞吐),还得省油(低功耗)。
技术武器:面向推理场景优化的GPU(如英伟达L40S,用于推理和部分训练/视觉生成)、液冷(Liquid Cooling,降低能耗)、智能调度让 GPU 全天不闲置。
投资视角 :三重门分别对应三类机会:推理优化软件 → 半导体器件 → 数据中心能效。资本市场看的是谁能在链条里拿到超额利润。
五、玩家与格局:硬件、云、模型、企业
1.硬件厂商
英伟达:训练推理通吃,CUDA(GPU 开发生态)+TensorRT 形成封闭护城河。
AMD:MI300X(推理加速 GPU)走性价比路线。更大的机会在产业链:HBM(三星/美光/海力士)、先进封装(CoWoS,台积电/日月光)、ABF 基板、整机厂。若 AMD 在云厂商订单中持续突破,整个供应链将出现共振。
Intel:Gaudi3(第三代 AI 加速器,同时支持训练与推理)主打低价。
国产厂商:昇腾、寒武纪、燧原、沐曦,在政策支持和本土场景驱动下,更可能在推理侧获得现实突破。
2.云厂商(Hyperscalers,大规模云服务商)
AWS、Azure、Google Cloud:囤 GPU,建全球最大推理集群。
同时自研芯片:AWS Inferentia、Google TPU(Tensor Processing Unit,张量处理单元),减少对英伟达依赖。
3.模型公司
租云:快,但利润被分走。
自建:省钱,但重资产。
4.企业用户
通用需求走云 API,高频核心场景私有化。
投资视角 :英伟达依旧现金牛,但资本也在寻找 AMD 产业链和国产替代的溢价机会。云厂商的毛利率改善,则是估值重估的重要触发点。
六、如何把推理成本打下去:四条路
模型压缩与量化 :FP16(16位浮点)→INT8(8位整数)→INT4(4位整数),显存和带宽瞬间减半。
专用推理芯片 :ASIC(Application-Specific Integrated Circuit,专用集成电路)、NPU(Neural Processing Unit,神经网络处理器),更省电。
内存与互联优化 :HBM3、CXL(Compute Express Link,高速互联协议)、光模块。
软件栈优化 :编译器、图优化、调度系统,榨干每一块 GPU。
投资视角 :哪条技术路线成行业共识,哪条产业链就能拿到定价权。
七、需求曲线的新引擎:多模态与实时交互
多模态 :从文本到视频。视频生成的算力开销比文本高几个数量级(行业估算在数千至上万倍)。
实时交互 :AI 虚拟人直播、AI 陪练,要求毫秒级持续输出。
科学应用 :蛋白质折叠、材料模拟、金融风控,都是高频推理场景。
云+边缘结合 :云跑大模型高精度,边缘 AI PC/手机跑小模型低延迟。
投资视角 :推理需求爆发带动数据中心扩容。光模块、液冷、电源,将进入新一轮周期。
八、投资总结:把望远镜对准“云端推理产业链”
训练塑造模型上限,推理决定商业兑现速度和现金流质量。
上游 :GPU/ASIC/NPU、HBM、先进封装与基板。AMD 产业链最具弹性。
中游 :云厂商推理集群、推理引擎与调度软件。毛利率改善是估值重估的触发点。
下游 :液冷、光模块、电源管理。多模态爆发让需求超预期。
推理是大模型落地的核心变量,也是资本衡量商业化质量的关键指标。谁能在推理端做到更快、更省、更稳,谁就有可能拿到未来的市场与资本青睐。