万亿国产芯片的第一站:推理侧国产化率能否率先突破?
一、训练芯片不是中国芯的终点,而是资本幻想的起点
过去五年,中国AI芯片的关键词只有一个:追赶英伟达。各路资金、政策和舆论都在聚焦如何做出“中国的H100”研究。
然而,这条路径注定异常艰难——英伟达不仅在硬件GPU架构上领先一个代际,更建立了闭源的CUDA软件生态和NVLink高带宽连接三大护城河。国内厂商想要在性能+生态+规模 三个维度上正面突破,短期内几乎无解。即便在美国出口管制的压力下,国内GPU自给率有望提升,但要在训练芯片上全面匹敌英伟达并非易事。
这就引出另一个更现实、更具确定性的方向:推理芯片国产化率率先突破 ,才是中国AI芯片的第一站胜利。AI芯片产品主要可分为训练卡和推理卡,训练卡主要用于训练AI大模型,推理卡主要是利用训练好的模型处理新数据并输出预测结果,与“军备竞赛”般烧钱拼性能的训练芯片不同,推理芯片更像一门讲究成本和规模化的商业生意。中国AI芯片厂商当前的技术起点、市场需求和政策导向,恰好与“推理先行”思路完美匹配。许多业内人士也判断,国产AI芯片有望率先在推理端实现规模化落地 ,为生态带来结构性突破。
二、为什么推理芯片是国产AI的破局之门?
我们从三个层面来看这一问题:
1.技术门槛较低,适合“应用驱动+快速试错” 。推理芯片本质上只是执行已训练好的模型,相比训练芯片不需要极限并行、高带宽HBM显存、大功率冷却系统等“硬核”配置,设计空间更加灵活。厂商可以针对具体应用场景优化推理芯片,而不必追求通用GPU在所有方面的顶尖性能。例如:
·云端视频分析(安防监控、媒体处理)
·工业视觉(产品检测、分拣)
·语音交互设备(智能客服、机器人)等场景
这些场景对延迟、功耗、体积都有实际约束。这样的约束反而给予国产芯片“反英伟达”的机会:无需做到最强,而是做到刚刚好,以更低成本满足特定需求 。事实上,目前国内AI芯片厂商大多优先实现了推理侧的适配,因为推理计算需求相对更低,更容易通过优化内存和指令集达到实用性能。有了新模型技术的加持(如大模型蒸馏),在一些推理任务上国产方案已经能接近甚至媲美顶级GPU的效果,但成本大幅下降。这种“高效能、低成本”的特性使国产芯片无需在训练端正面硬碰英伟达 ,就能快速在推理端实现商业落地。
2.产业链自主空间更大,易形成闭环 。推理芯片不一定依赖台积电最先进制程,也不需要搭配HBM3/4这类高规格器件。在国内成熟的28nm甚至14nm工艺上,同样能实现可用的AI推理性能。
·以汽车智能驾驶芯片为例,目前国产大部分车载AI芯片采用14~28nm工艺,而英伟达、高通已用7nm及以下制程——尽管制程落后两代,这些国产芯片(如地平线“征程”系列)依然满足了汽车场景的AI计算需求。
·再如寒武纪的思元270云端推理芯片采用16nm工艺,却实现了ResNet50上超过每秒10000张图片的推理性能。
较低的工艺制程要求意味着国产推理芯片更容易绕开“卡脖子”瓶颈,减少对受限先进工艺和海外IP的依赖。与此同时,推理侧更有机会搭配国产AI软件框架(如华为昇腾MindSpore、百度飞桨PaddlePaddle)、国产操作系统以及国产整机制造,形成“全链路国产化”的闭环生态。这种软硬件一体的自主可控在政企采购、边缘部署中尤为重要——对于这些场景,合规可控是刚需,极致性能反而不是唯一考量。
3.政策支持明确导向“边缘+低功耗+国产化” 。从2024年开始,“AI+政务”、“AI+工业”、“AI+交通”等被中央多次点名为新基建重点方向。相比昂贵的中心训练集群,这些场景普遍需要的是 低成本、可控 的AI算力硬件,用于边缘侧的智能升级。国家层面的科技自立自强战略也聚焦于此:
·在高端AI芯片被严控出口的背景下,反而催生出国内AI算力产业链的重构机会。
·各地智算中心、行业云加速引入国产方案,运营商和服务器厂商也逐渐倾斜于国产AI芯片,全产业链合力使得国内AI算力自主化已取得不菲成果。
据TrendForce预测,2025年中国本土AI芯片供应商在国内AI服务器中的占比将提升至约40%,与外购芯片平分秋色。可以说,训练领域或许是华为等巨头的主战场,而边缘AI+推理芯片才是国产AI芯片更稳健的战略高地 。
三、国产推理芯的三大路径与代表性公司
当前主流的国产AI推理芯片路线,我们可以概括为三类:
第一类:自主IP +定制架构—— 代表公司:寒武纪 。
寒武纪走的是“云边一体”的路线,其思元系列芯片覆盖云端训练、云端推理和边缘部署多个层次。其中思元270/290芯片已部署在多家云端AI加速平台上,用于提供推理服务等。寒武纪的优势在于完全自研的IP架构(MLU处理器)和配套软件栈NeuWare逐步完善,能够提供软硬件协同的完整产品能力。近期美国的高端GPU禁令反而给了寒武纪机会:公司2024年营收11.74亿元,同比增长65.56%,净亏损收窄至4.52亿;2025年一季度更是营收11.11亿元,同比增长4230.22%,并实现了盈利。目前,寒武纪已成功验证大模型预训练的集群方案,并在互联网 NLP 场景实现了批量出货。这意味着寒武纪的通用AI芯片正在逐步被国内大厂所采用。
当然其劣势也很明显:商用化落地依然较慢,客户拓展主要依赖少数头部客户或政府订单,市场生态仍在教育培育期。即便技术性能优秀,如果不能迅速扩大规模出货,盈利持续性仍存压力。
第二类:边缘推理+垂直场景优化—— 代表公司:天数智芯 。
天数智芯选择了更细分的切入点,主攻“国产CPU + AI加速器”的组合方案,服务于城市治理、安防监控、车载终端等特定场景。它的核心思路是否定做“万能芯片”,而是打造场景最优解,在体积、功耗、算法适配度上形成差异化优势。天数智芯发布的首款自研 AI 芯片 “Iluvatar CoreX I”,定位高能效的边缘端 AI 推理芯片。该芯片采用 32 核自研架构,并针对 CNN 算法定向优化,单芯片可提供 4.8 TFLOPS (FP16) 算力,功耗仅 5W,是一款能效全球领先的高性能边缘端 AI 推理芯片。它支持 TensorFlow 等主流 AI 框架以方便模型迁移,且能兼容 X86、ARM 及国产 CPU,可通过多芯片 / 多板级联扩展算力。这体现出天数智芯 “软硬件一体” 的方案思路:不仅提供芯片和加速卡,还搭配 SkyDiscovery 平台,按需输出完整解决方案。目前,该芯片方案已经在医疗、安防等行业客户处实现了实际应用,完成技术商业化落地。可以说,天数智芯更像是在用做应用产品的思维做芯片,追求“小而美”的切实可用。
它的挑战在于:边缘AI市场高度分散,单一场景容量有限,公司需要快速复制拓展更多标准化场景。同时生态和客户认可仍需时间培养——天数智芯的新产品发布只是“万里长征第一步”,未来仍需在生态和行业落地方面加大投入,才有非常好的前景。
第三类:中低端大模型推理 + 国企整合—— 代表公司:壁仞科技 。
壁仞走的是通用GPU路线,其BR100/104系列芯片瞄准大算力AI训练和推理市场,采用7nm制程工艺,可容纳770亿颗晶体管,宣称16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别,创下全球GPU芯片算力纪录。然而,由于诸多原因,壁仞的芯片直到近期才逐步进入测试适配阶段,外界对其真实性能、量产进度以及生态兼容性一直存有质疑。尽管如此,壁仞背后资源雄厚:高瓴资本、IDG 等知名机构重金加持,公司还传出将在今年赴港 IPO 集资数亿美元,以加速商业化。更重要的是,壁仞积极与产业龙头合作适配大模型生态。今年年初,优刻得 UCloud 基于壁仞芯片仅用数小时就完成了对 DeepSeek 全系列 1.5B~70B 参数模型的适配,上线云端推理服务,这一快速适配成果不仅展现了国产算力的高效兼容性,也让壁仞芯片在云端推理场景的实用性得到验证,有助于其进一步拓展互联网行业客户。壁仞官方也推出了基于 BR 系列芯片的大模型轻量化推理方案:通过支持 DeepSeek 蒸馏模型,实现开箱即用的云端大模型推理服务,并针对不同任务预置优化配置,覆盖从小模型到百亿级模型的多场景需求。
可以预见,如果壁仞能够与电信运营商、政务系统等深度捆绑,将其 GPU 部署于自主可控的 “智算中心” 用于大模型压缩后的推理,其突破口将不在于单芯片性能超越英伟达,而在于满足本土大模型低成本部署这一全新市场切片。未来一旦适配和生态问题逐步明朗,壁仞有望依托深厚的资本与政企资源,在 “大模型推理国产化” 浪潮中占据一席之地。
四、推理芯片真正的爆发点:不是技术,而是“规模化落地”
需要特别强调的是:国产AI芯片真正欠缺的不是顶尖技术,而是真实订单 和规模化应用。对于推理芯片而言,炒概念、跑PPT毫无意义,只有在实际业务场景中反复使用、积累数据和优化算法,形成正反馈闭环,产品竞争力才能越来越强。当前国产AI芯片公司林立,但多数还停留在样片和Demo阶段,离大规模商用尚有距离。那么,谁能率先破局实现推理芯片的规模化落地?我们认为需满足以下三个条件:
1.有真实客户和业务闭环 :不再停留于实验室性能秀,而是已经进入实际场景产生价值。比如前述寒武纪已在互联网 NLP 服务中实现批量出货、天数智芯的芯片已嵌入安防监控系统运行、燧原的推理加速卡随智谱AI一起打包成大模型一体机出售等。这种有付费客户、能持续迭代的业务闭环是最重要的验证。
2.场景标准化程度高 :只有场景足够聚焦且共性强,芯片方案才能模块化量产,复制到多个客户,实现规模效应。安防摄像头视觉分析、云端文本审核、智算中心的大模型推理服务等,都是需求明确且可复用的标准化场景。一旦在某一标准场景中跑通并大规模部署,便可迅速摊薄研发成本、优化产品性能。反之,如果每个项目都需要客制化适配,规模化就无从谈起。
3.自有生态或绑定国资资源 :考虑到很多潜在大客户(政府、运营商、大型国企)对国产替代的积极性和政策要求,推理芯片公司若有自己的软件生态和解决方案,或者与国资背景的平台深度合作,将大大降低进入这些市场的门槛。反之,没有生态支持的“裸片”很难被整机厂商和开发者采用。近期国产AI产业出现了抱团趋势:如10家大模型和芯片企业成立“模芯生态联盟”共同适配。能够整合上下游资源的公司,无疑更容易拿下规模订单。
满足以上条件的公司,将有机会在未来2-3年内冲击百亿级市值,成为迈向万亿国产芯片产业愿景的第一批胜利者。事实上,随着美国封锁下国内市场需求转向本土,AI服务器采购版图正快速变化:根据TrendForce研究报告,预计2025年中国AI服务器中采用本土芯片的比例将接近40%,几乎与外购芯片比例平分秋色。
可以预见,AI 推理芯片的大规模落地会比训练芯片更早到来。具体来看,2023 到 2024 年是市场验证和试用的阶段,到 2025 年将进入大规模铺开的第一年,而到 2026 年,国产推理芯片很可能会集中迎来快速发展的爆发期。
五、投资者该如何理解这条路径?
基于上述判断,我们明确一个结论:未来AI芯片市场的第一次大爆发,不会来自某个直接对标英伟达H100的“超级芯片”,而很可能来自“推理侧国产化”浪潮下的第一次真实落地 。对于投资者而言,这意味着:
1.投资不能只盯着H100类训练芯片厂商 :过去大家盯着如何挑战英伟达,如今应把目光同样投向那些深耕推理加速的厂商。这些公司所在的“非共识”赛道可能孕育下一批黑马。
2.要开始关注“推理芯片+边缘场景+国产算力替代”这条非共识路径 :评估投资标的时,不仅要看芯片参数跑分,更要看其是否契合国内算力替代的大趋势,是否拿到了边缘场景的切实订单。例如,有没有进入智慧城市项目?是否为国企的数据中心提供推理服务?这些能够验证需求的场景,比起纸面算力指标更加关键。
3.把握时间节奏,提前布局 :正如产业周期所示,2025年是国产AI推理芯片密集落地的验证期,2026年开始则可能进入订单井喷的收获期。等到财务报表上业绩爆发再去追,高增长红利可能已被提前price in。相反,在目前大多数人仍对国产芯片持怀疑态度的时候进行布局,才是获取超额收益的窗口期。
六、结语:低调而确定的胜利,从推理芯片开始
许多人将国产芯片的成败简单地等同于能否造出“中国的英伟达” 。然而,真正的胜利也许并不在训练芯片那耀眼的塔尖,而是在那片默默支撑着千万智能终端执行推理、并真正创造现金流的中坚地带。推理侧国产化,看起来不如造顶级GPU那般“性感”,却胜在现实而确定:它针对的是实实在在的国内巨大市场空白,符合政策方向,也更加脚踏实地。
当下的寒武纪、天数智芯、壁仞,甚至未来可能崛起的新玩家,都有机会从这个“不性感却高概率”的赛道中杀出一条血路。这将是一个少数人看得懂、但极大概率会发生的未来 。
从市场规模来看,到 2027 年,全球 AI 推理芯片市场规模预计将突破 5000 亿美元,其中国内市场占比约 30%,达 1500 亿美元左右,推理芯片在国产芯片万亿级市场版图中占据重要份额。可以预见,万亿级国产芯片版图的第一站,很可能从推理芯片的胜利开始 。