预见

深度解析:英伟达、AMD、AWS、谷歌等七大推理芯片大战,谁是AI时代的黄金分割点?

原文链接: https://www.yjnt111.top/article/58

引言:AI芯片竞赛驶入“推理”快车道

2023年以来,生成式AI爆发式走红,其背后算力引擎——AI芯片也随之成为资本市场的新宠。英伟达凭借GPU一家独大,股价飙升,市值突破4万亿美元,令投资者瞠目。然而,训练只是AI战役的上半场,如何高效地推理 (即模型部署和服务)正成为决胜下半场的关键。面对铺天盖地的AI应用需求,从巨头到初创公司,无不瞄准“推理加速”这一新风口,于是围绕推理芯片 展开了一场激烈的内战。

所谓“推理芯片内战”,一方面有传统GPU巨头升级迭代,试图捍卫霸主地位;另一方面,云服务巨头不甘受制于人,自研芯片降低成本;同时,一批新创公司以内存计算、模拟计算 等新架构杀入战场,剑指更高能效比。在这场混战中,既有资本的狂热追捧,也有技术路径的大胆赌局。

风口还是泡沫?机遇抑或陷阱?

本文就选取2025年最受瞩目的七款AI芯片逐一深度分析,试图探究这场推理芯片大战中的“黄金分割点”——即性能、成本与前景的最佳平衡点究竟在哪里。

Nvidia Blackwell Ultra (GB300 NVL72):AI工厂时代的推理巨擘

市场热度:要问今年AI芯片领域谁最吸睛,非Nvidia新一代Blackwell架构莫属,而其中的佼佼者就是Blackwell Ultra GPU 及其组合平台GB300 NVL72。作为英伟达GTC 2025大会的重磅发布,Blackwell Ultra被官方定位为“为AI推理性能而生”,引发行业高度关注。在ChatGPT掀起的AI热潮下,英伟达已几乎成了“AI=英伟达”的代名词,新品尚未上市就被市场寄予厚望。不仅投资者狂热,供应链厂商更是争抢订单:据报道,富士康等代工巨头已将GB300服务器生产列为头号任务,甚至优先于苹果新iPhone的生产!多家服务器厂商(广达、纬创、超微等)也紧急备产,准备迎接客户对这一最强AI算力平台的需求。如此排场,足见Blackwell Ultra的市场热度之高——既有真实需求支撑,也不乏资本和媒体的造势,可谓风口中的风口

技术定位:Blackwell Ultra瞄准的是大规模AI推理 。与以往主要强调训练性能不同,英伟达这次把“推理”摆到了舞台中央,宣称进入“AI推理工厂”时代。GB300 NVL72平台集成了72颗Blackwell Ultra GPU和36颗Arm Grace CPU,采用全液冷机架级设计,专为大模型推理的“测试时扩展”优化。简单说,它就是一个针对超大规模推理负载打造的整柜超级计算机 。无论是聊天机器人、搜索增强还是复杂多模态推理,只要是需要海量并发和低延迟的AI服务,这个平台都是量身定做的刚需设备。可以预见,面向云端AI推理的数据中心,Blackwell Ultra将是标配“重武器”。当然,凭借强悍通用算力,它也完全可用于训练任务,只是英伟达有意将其与训练用的H100等产品区隔开,强调Blackwell Ultra在推理场景的优势。

核心优势:作为英伟达下一代旗舰GPU,Blackwell Ultra集诸多尖端技术于一身,可谓“武装到牙齿”。首先是制程和架构升级 :虽然官方未明确指出,但业界推测Blackwell采用台积电最先进的3nm工艺,加上英伟达新一代GPU架构改进,带来显著性能和能效提升。它还引入了面向推理优化的FP4数据格式 和全新的“Nvidia Dynamo”推理加速技术,使得4比特精度下的推理性能猛增。英伟达称Blackwell Ultra的FP4推理吞吐比上一代提升了50%。其次,存储与带宽 大幅增强:每颗Blackwell Ultra GPU配备高达288 GB的HBM3e显存,比前代增加50%容量。整个平台合计拥有20 TB高速显存和40 TB系统内存。NVLink互连带宽高达130 TB/s,网络带宽14.4 TB/s,确保数十颗GPU协同工作时数据交流畅通无阻。再次,性能与效率 的飞跃:官方数据显示,相较上一代Hopper平台,同等功耗下GB300 NVL72平台对大型推理模型的整体输出能力提升了50倍。其中响应速度提高10倍,吞吐效率提高5倍——意味着过去需要90秒生成100个Token的任务,现在10秒即可完成。如此夸张的增幅,背后不仅是算力提升,更在于架构优化(例如针对Transformer的2倍注意力加速 、更大的显存满足长上下文模型等)。生态软件 也是英伟达的隐形优势:完善的CUDA、TensorRT以及庞大的开发者社区,保证Blackwell Ultra一经推出,用户就能方便地利用其威力,这是竞争对手难以短期匹敌的软实力。

客户状态:目前GB300 NVL72尚处于推出前夕,预计2025年下半年开始出货并大规模铺开。然而,从产业链迹象看,市场需求旺盛且下游蓄势待发 。富士康、广达等厂商已在试产和验证GB300服务器,计划9月起批量交付。有消息称部分AI公司甚至推迟采购现有H100集群,宁愿等GB300到来再上马训练任务。云服务商更是虎视眈眈:亚马逊AWS、谷歌GCP、微软Azure、甲骨文OCI都在合作伙伴名单上,准备将Blackwell Ultra用于其AI基础设施。甲骨文透露其Nvidia GB200(Blackwell前代)超级集群已部署131,072颗GPU,如今Blackwell Ultra版超算也在路上。可以想见,一旦GB300上市,凭借极高算力和节能优势,大型AI工厂和云平台将迅速导入。英伟达甚至预计,基于Blackwell Ultra的解决方案可将数据中心的AI业务收入潜力提高50倍——这暗示客户若部署该平台,可能解锁前所未有的AI服务规模和营收机会。

AMD Instinct MI355X:背水一战的挑战者

市场热度:在AI加速芯片领域,AMD一直扮演追赶者角色。然而2025年,随着Instinct MI300系列的新成员MI350X/MI355X 发布,AMD试图在这场大战中打出一张差异化王牌。6月的“Advancing AI 2025”活动上,AMD高调宣布MI355X等新GPU,加之随后甲骨文OCI宣称将部署多达131,072颗MI355X组成AI集群的重磅消息,一时间AMD也登上了AI圈头条。甲骨文表示引入MI355X可实现较前代AMD GPU2倍以上的性价比提升 ,并将构建“Zettascale”(十万级GPU规模)的AI超级计算集群。可以说,虽然AMD在AI领域声量不及英伟达,但凭借大客户背书和自身宣传攻势,MI355X还是制造了不小的热度。不过,其中既有真实需求驱动(比如云厂商不想被Nvidia一家绑定的强烈意愿),也需要警惕部分营销夸大的成分。总的来看,MI355X已成为AI芯片板块中备受期待的“挑战者” ,市场关注度显著提升。

技术定位:MI355X属于AMD Instinct MI300系列,面向数据中心的训练和推理 通用加速。和Nvidia的Blackwell Ultra类似,MI355X主打大规模AI模型训练、推理以及高性能计算(HPC)三大场景。AMD强调该系列为生成式AI和HPC设定了新标准,既能满足大模型训练的吞吐需求,也能高效执行推理和科学计算。尤其值得注意的是,AMD这次非常强调大模型推理性能 ,声称相较上一代MI300X有35倍之巨的提升。这意味着AMD深知未来AI算力增长更多来自推理侧,而非仅训练。换言之,MI355X定位上直指与英伟达顶级GPU在训练/推理两个维度全面竞争 。对于需要巨量算力但又寻求第二供应来源的客户(如超大规模云服务商、科研机构),MI355X提供了一个除英伟达外的高性能选择,可谓刚需中的备胎。AMD还推出了功耗稍低、风冷友好的MI350X,与MI355X液冷高功耗版形成高低搭配。总的来说,MI355X的定位就是剑指最顶级AI加速应用 ,试图在英伟达称霸的领地抢下一席之地。

核心优势:AMD深知要撼动英伟达,必须拿出几把硬核武器。MI355X相较前代和竞品,优势概括为“大、快、开放”三个关键词:首先存储更大 。MI355X配备了288 GB HBM3e显存,比自家上一代MI325X的256 GB提高了约13%,比英伟达最新Blackwell GPU(代号B200)高出60%之多。换言之,单颗MI355X即可容纳约5200亿参数模型 ,而竞争对手需要切分到多颗GPU上。这对超大模型推理尤其有利,模型无需过多拆分,可减少通信开销。显存带宽方面,MI355X达到8.0 TB/s,与Nvidia同级别产品相当。其次算力更快 。得益于升级的CDNA 4架构和先进3nm工艺,MI355X在低精度AI计算上火力全开:峰值FP6/FP4性能高达20 PFLOPS(每秒千万亿次计算),支持FP4和FP6 新数据类型,比前代提升4倍之多。AMD宣称,在6-bit浮点性能上,MI355X比Nvidia Grace Hopper (GB200)快2倍以上;4-bit性能则与GB200相当且比纯GPU版B200快10%。此外,8-bit和16-bit推理性能,MI355X均与GB200持平并略胜B200约10%。而在需要高精度的FP64算力上,MI355X达79 TFLOPS,足足是Nvidia竞品的两倍——这对HPC数值模拟等很有价值。综合来看,MI355X在大模型推理吞吐上号称业内最高 ,对某些模型的单位成本性能领先Nvidia约20~30%。例如,AMD披露其在DeepSeek R1推理模型上比B200快20%,在4050亿参数的Llama 3.1模型上快30%。即使对比Nvidia最强的Grace Hopper方案,MI355X在Llama 3.1上也能打成平手。这些数据表明,AMD已经基本追至Nvidia在大模型推理上的性能水平,并在部分指标上略有超车。最后生态更开放 。AMD采用开源的ROCm软件栈,支持主流AI框架迁移,相比Nvidia封闭的CUDA有一定开放优势(尽管生态成熟度仍逊色)。同时AMD通过Chiplet小芯片设计,实现CPU/GPU融合(MI300A融合CPU,用于超算)以及可灵活配置不同功耗版本(MI350X/MI355X),体现出架构的模块化和开放性。这些都是AMD差异化竞争的亮点。

客户状态:MI355X在发布时即宣布当月开始提供样品 ,下半年会陆续部署于客户环境。目前看,旗舰客户甲骨文动作最大 :其最初计划部署30,000颗MI355X,如今扩大到131,072颗的终极规模。甲骨文声称将成为首个提供MI355X超级集群的超大云厂。这既是对AMD的背书,也包含其自身降低成本、摆脱对Nvidia依赖的战略考量。此外,Oracle还将MI355X用于自家Zettascale平台,强调价格性能优势达2倍以上。除了OCI,云厂商Vultr宣布Q3开始提供MI355X云服务,用于客户AI训练/推理,加速其全球AI基础设施扩展。可以说,AMD已拿下若干重量级订单 ,当前正处于从验证到放量的过渡期。今年下半年起,随着供应到位,这些合作有望转化为实际部署量产。另一方面,行业对AMD软件生态仍有担忧——很多AI软件对CUDA优化充分,而ROCm适配程度不足,客户迁移存在门槛。这或许会影响MI355X的大规模应用速度。短期内,MI355X更多将由少数有迫切需求的大玩家 采用(如甲骨文、部分二线云厂),以验证其性能/成本优势。如果这些早期案例成功,AMD有望在2025年进一步撬开更多市场份额,其股价和估值也可能获得基本面支撑;反之若进展不顺,市场热情可能降温。总的来说,目前迹象偏正面:MI355X作为挑战者,已经站稳脚跟,接下来要看能否在商业上实现持续放量,兑现“性价比之王”的承诺。

Amazon Trainium2:云巨头的性价比突围

市场热度:与直接销售芯片的厂商不同,亚马逊自研AI芯片更多是为降低AWS云服务自身成本。因此Trainium2 虽然性能亮眼,但公开市场热度不如前两者。然而,在行业内尤其云计算圈子里,Trainium2绝对称得上焦点之一:AWS于2024年底宣布了第二代Trainium,并在2025年初正式推向商用,声称相比同时代GPU云实例可提供30%~40%的价格性能提升。这个幅度对烧钱的AI训练来说极具吸引力,引发众多AI初创公司和企业客户兴趣。不仅如此,AWS还紧随其后宣布研制Trainium3,预计2025年底问世——相当于一年一更的节奏,展示出高度战略投入。可以说,亚马逊正借Trainium系列在云端AI算力市场上演一场“性价比突围” 。尽管媒体话题性上,Trainium2远不及英伟达GPU那样吸睛,但懂行的人都明白其意义:若AWS能凭此持续压低AI算力成本,将对整个行业格局产生深远影响。

技术定位:如名字所示,Trainium2主要定位于深度学习模型的训练加速 (Training),同时兼顾推理。AWS提供的EC2 Trn2实例即基于Trainium2芯片,号称是专为大模型(数百亿到上万亿参数)的训练和部署 打造的云实例。换言之,Trainium2直接锁定了当前最火热的LLM、扩散模型等大型模型的训练需求。AWS也明确拿它对标英伟达H100等GPU实例,希望客户把原本在GPU上的训练任务搬到Trainium集群上,以获得更优的性价比。此外,Trainium2还被用于推理 服务,例如AWS自己推出了Trn2 UltraServer用于低延迟推理场景。这说明Trainium2虽然名为“训练”,但实则是训练+推理通吃的云端AI加速器 。它的典型用户包括:对成本敏感的大模型开发者、需要大规模分布式训练的科研/企业,以及追求极致性能的AWS自营服务(如Alexa、Amazon内部模型等)。总的来说,Trainium2解决的是超大算力需求与云成本高企之间的矛盾,属于云服务商的刚需战略武器 ——既满足自身AI布局,又绑定客户在AWS生态内,战略意义重大。

核心优势:Trainium2的优势可以总结为“集群巨兽,降本利器” 。首先在集群规模和算力 上,AWS做到了GPU难以企及的地步:一个EC2 Trn2实例包含16颗Trainium2芯片,总计提供20.8 PFLOPS的FP8计算能力,拥有1.5 TB HBM3内存和46 TB/s内存带宽。这单机已相当强悍。但AWS更进一步,引入专有高速互联NeuronLink,将4台Trn2实例(共64颗芯片)组成Trn2 UltraServer 。UltraServer节点的规格惊人:83.2 PFLOPS FP8算力,6 TB高带宽内存,185 TB/s内存带宽 ,以及12.8 Tbps的内部网络带宽。这等于把一组GPU服务器通过NVLink紧耦合在一起,但Trainium2的实现更加扩展,内存和算力规模都翻了四倍。进一步,AWS宣称其EFAv3高速网络可将数万颗Trainium2连接成EC2 UltraCluster ,提供每秒数千Tb的网络吞吐,实现真正大规模分布式训练。这些指标显示,Trainium2并非单兵作战,而是强调规模效应 :让AI集群像堆积木般横向扩展,同时保持高带宽和低延迟。这对训练超大模型至关重要。其次,性价比与能效 优势明显。由于完全针对深度学习优化,Trainium2在8-bit浮点运算上效率极高——每颗芯片集成8个NeuronCore-v3计算单元,共达近1300 TFLOPS FP8算力,较一代Trainium提升6.7倍。每芯片还带有96 GB HBM内存和2.9 TB/s带宽,分别是前代的3倍和3.6倍。更优化的设计带来能效提升,据AWS称Trainium2能效较第一代提升3倍。最终体现在用户关心的指标上,就是30-40%的成本性能比提升 (相较最新GPU实例)。对于烧钱的AI训练,这意味着用同样预算可以训练更大模型或训练更快。值得一提的是,AWS还非常注重软硬件协同 :其Neuron SDK已深度集成PyTorch、JAX等主流框架,支持HuggingFace、PyTorch Lightning等库的优化,并开放XLA编译接口。这使得开发者迁移工作相对简单,不需要手写大量底层代码就能发挥Trainium2性能。AWS这种端到端打包 的能力(芯片-系统-网络-软件一体化)是它的独特优势。

客户状态:Trainium2目前已经在AWS云上正式提供服务 。AWS于2024年底开始预览Trn2实例,2025年上半年面向一般客户开放了若干区域可用。许多对成本敏感的AI初创公司,以及内部算力需求巨大的团队,已开始尝试使用Trn2训练模型。一些早期用户报告Trn2实例在大模型训练中表现稳定,并实现了显著成本节省,这进一步增强了市场信心(这里引用AWS官方说法,因保密未公开具体用户案例)。AWS自己也将Trn2应用于旗下服务。例如,有迹象显示Alexa团队已用Trainium2微调语音模型,以降低对GPU的依赖。可以说,Trainium2正低调但坚定地推进商业落地 。当然,相比GPU生态,它在广泛应用上仍需要时间培养用户习惯。一些客户在迁移时遇到模型精度或调优问题,也需要AWS提供更多支持。此外,Trainium2当前仅供AWS云使用,外部无法购买,这限制了它的市场影响范畴。不过对投资者而言,它的意义体现在AWS云业务的竞争力提升:通过Trainium2,AWS在AI基础设施上拥有了差异化卖点,有助于吸引预算拮据的AI客户,并压制主要竞争对手(Azure、GCP)的优势。换句话说,Trainium2成功与否,将折射在AWS的市占和盈利能力上 。目前迹象是积极的——AWS愿意快速迭代下一代,就说明Trainium2达到了预期效果,开源节流见到了甜头。因此,我们认为2025年Trainium2会进一步扩大部署规模,成为AWS对抗GPU垄断的有力砝码。这一自研芯片战略若持续奏效,也会影响投资人对亚马逊云业务估值的看法:自有AI芯片意味着更高利润率和自主性,这可能为亚马逊股价提供潜在支撑(尽管相比广告、电商等故事,它的影响更隐性)。

Google TPU v7 (Ironwood):闭门造车的推理怪兽

市场热度:谷歌的TPU(Tensor Processing Unit)系列一直是AI芯片界的传奇。不过由于TPU主要服务谷歌自身和其云客户,未对外销售,因此关注度更多局限在业内。今年4月,谷歌在Cloud Next 2025大会上发布了第七代TPU——代号Ironwood 的TPU v7。这款芯片被谷歌称为“推理时代 ”的产物,是首个专为大规模AI推理打造的TPU版本。Ironwood发布后,技术社区一片惊叹,但大众媒体相对反应平淡,毕竟它不像GPU那样商品化。然而在AI硬件圈,Ironwood引起的震动不亚于一场小型地震:其性能指标之恐怖(后文详述)甚至有人惊呼谷歌已“悄悄造出了足以秒杀英伟达的怪物”,只不过谷歌不打算对外卖而已。一些业内人士指出,如果谷歌愿意将TPU业务拆分独立,可能瞬间成为Nvidia最可怕的竞争对手。但目前谷歌选择将Ironwood作为内部优势,不公开对垒Nvidia。这种策略让Ironwood略显“养在深闺人未识”的意味。总体而言,Ironwood的市场热度是内热外冷 :工程师们热议其技术壮举,但投资市场上因为缺乏直接投资标的和商业兑现路径,并未形成炒作。然而,它的战略意义和象征意义极高——标志着谷歌在AI算力自给自足上更进一层楼,也提醒大家Nvidia的统治并非高枕无忧。

技术定位:Ironwood TPU v7聚焦于超大规模AI推理 ,特别是谷歌所谓“推理型AI代理”的未来需求。谷歌高管称,AI正从响应式模型走向主动式推理模型 (Proactive AI Agents),需要更强大的推理算力。Ironwood正是为此设计,让AI代理能够检索、推理、生成数据,即时提供洞见。这实际上对应大模型在线服务(如Bard、搜索增强)以及复杂任务型AI(如多模型协作、MoE专家混合模型等)。因此,Ironwood并非用于谷歌初创时期那类简单推理,而是面向推理最前沿、最高难度的场景 。从配置看,谷歌提供256颗芯片9216颗芯片 两种Ironwood集群方案,明显是满足不同规模的部署。9216颗的大型集群被谷歌称为“超级计算架构AI Hypercomputer”的核心,可提供惊人的算力(下述),主要供谷歌云和DeepMind内部使用。256颗的小型集群则可能开放给一些云客户或研究机构,通过Google Cloud TPU服务来使用。总的来说,Ironwood定位就是谷歌自家AI云的杀手锏 :把AI推理的最高性能掌握在自己手中,支撑起像Gemini 2.5这样的下一代大模型运行。对于谷歌而言,这是不可或缺的底层支撑(毕竟其Search、Ads、新版助手等都将大量调用推理)。对于行业而言,Ironwood证明了ASIC加速器在推理端也能做到极致规模 ,不一定非用GPU不可。

核心优势:Ironwood TPU v7集合了谷歌多年来在AI加速器上的技术积累,其规格一举把前代产品甩开几条街。用谷歌云CEO Kurian的话说:“Ironwood是我们迄今最大最强的TPU,比上一代高性能TPU提升超过10倍”。具体来说,Ironwood的每颗芯片 峰值算力高达4,614 TFLOPS(即4.614 PFLOPS)的FP8性能。这一数字非常夸张——相当于一颗TPU v7的8-bit算力顶上近3块Nvidia H100 (H100大约1.5 PF8)!更恐怖的是集群规模 :9216颗Ironwood组成的Pod集群,峰值可达42.5 EFLOPS (艾字节浮点运算)。注意这个“42.5 Exaflops”是以FP8计,相比之下目前世界最快超算El Capitan(主要FP64性能)约2 EFLOPS。即便不直接可比,也足见Ironwood集群算力之巨大,谷歌声称单个Ironwood Pod相当于24个El Capitan 。再看内存与带宽 :每颗Ironwood集成192 GB高带宽内存(HBM) ,是上一代v6 Trillium的6倍容量。HBM带宽高达7.37 TB/s,比前代提升4.5倍。整个9216集群的总内存容量逼近1.77 PB级别,能够加载和推理超长上下文、超大参数的模型而游刃有余。芯片间通信方面,Ironwood采用谷歌自研的第五代ICI互连 (Inter-Chip Interconnect),单芯片双向带宽达1.2 TB/s,较前代提高50%。这意味着数千芯片协同时仍能高效同步,不会像一般分布式集群那样受网络成为瓶颈。除却硬件指标,Ironwood还引入一个专门面向推理的新单元:SparseCore 稀疏加速器。它可高效处理超大规模Embedding稀疏矩阵运算,针对推荐系统、图神经网络等应用提供额外加速。这扩展了TPU的适用领域,不再局限于dense矩阵乘法。能效方面 ,Ironwood相较v6功耗效率提升2倍,每瓦特可执行29.3万亿次浮点运算。这一能效指标(约29.3 TOPS/W,推测FP8下)远超市面GPU的水平,体现出ASIC方案在特定优化下的卓越效率。最后,谷歌还强调Ironwood沿用了AI自动芯片设计的结晶:DeepMind的AlphaChip技术通过强化学习为TPU生成了“超人水平”的芯片布局。这据称已经用于最近三代TPU的设计,让电路性能和密度得到额外提升。总而言之,Ironwood TPU v7在算力、内存、通信、效率各方面都达到了前所未有的高度 ,完全是为谷歌当前和未来数年的AI野心量身打造的“推理怪兽”。

客户状态:Ironwood目前主要服务于谷歌自身及其云客户。根据谷歌公告,部分Ironwood已部署在Google Cloud的AI基础设施中,为内部模型(如DeepMind的Gemini 2.5、AlphaFold升级版等)提供算力支撑。谷歌云计划向客户提供256芯片或9216芯片规模的Ironwood集群租用服务,这将赋予GCP在AI云算力上的独特卖点。目前推测,大规模Ironwood Pod已在谷歌数据中心上线,谷歌内部产品如Bard聊天、搜索AI回答等,也可能已部分切换到Ironwood上运行以降低推理时延和成本。有趣的是,谷歌在发布Ironwood时语带锋芒地表示“我们能更低成本地服务AI,因为我们垂直整合了芯片”,并不认为这会立刻冲击英伟达,但长期而言这是谷歌的竞争护城河。对于一般开发者,如果想使用Ironwood算力,需要通过Google Cloud TPU预约获得。目前因供给有限,只有部分大客户和研究机构获得了试用机会,谷歌尚未全面开放Ironwood供随选。换句话说,Ironwood虽性能彪悍,但对外仍披着一层神秘面纱:谷歌牢牢控制其使用门槛,并没有大规模对市场释放。这也是策略使然,毕竟谷歌芯片的目的不是卖硬件盈利,而是增强自家AI服务竞争力。因此,从商业化程度看,Ironwood与其他芯片有所不同——它不直接产生芯片销售收入,而是通过更低的AI算力成本间接提升谷歌盈利能力。对于投资者而言,这种影响是隐含的,但很重要:在AI时代,谷歌凭借自研TPU在基础设施上的成本优势,能否转化为业务优势?如果能,那么谷歌的估值中或许应包含这部分护城河的价值。当然,目前云客户仍大多习惯于GPU,谷歌需要证明Ironwood集群能提供不输乃至优于GPU 的易用性和稳定性。若这一步跨过,谷歌云有机会借助TPU在AI计算市场后来居上。这场仗还在进行中,但至少2025年的Ironwood展示了谷歌技术硬实力依然雄厚 ,并没有在算力赛道掉队。

d-Matrix Corsair:内存即计算,搅局推理的新秀

市场热度:在众多AI芯片初创公司中,美国硅谷的d-Matrix备受瞩目。2024年11月,d-Matrix发布了名为Corsair 的首款AI加速卡,号称是“全球最高效的数据中心AI推理平台”。更引人注意的是,d-Matrix早在发布前就获得了微软的青睐:其B轮融资由微软风险投资部门领投,总筹资超过1.6亿美元,投资方还包括知名机构淡马锡等。微软之所以站台,正是看中了Corsair在大模型推理上的潜力——据悉OpenAI每生成100字词可能就要烧掉几美分的GPU成本,推理开销巨大,微软希望找到更高效的解决方案。d-Matrix敏锐切中这一痛点,以“内存即计算”(Digital In-Memory Compute)的创新架构,实现重量级承诺:针对70亿参数的Llama模型,Corsair推理性能比Nvidia H100快10倍,性价比高3倍,能效高3倍(以8-bit精度计)。如此豪横的宣称自然引发圈内热议,一度被称为“要做AI推理界的颠覆者”。然而,也有理性声音指出d-Matrix方案与传统GPU截然不同,软硬件生态需要重头建立,不可能一夜颠覆Nvidia。在Reddit等论坛就有人提醒:“Corsair并非GPU插卡替代品,需要全新软件配合”。可见,市场对d-Matrix是 热切期盼与保留怀疑并存。无论如何,d-Matrix作为startup新秀,能在Nvidia、AMD夹击的领域拼出一条路,已经相当不易。

技术定位:Corsair加速卡专注于数据中心的大模型推理 ,尤其是像GPT这类需要高并发、低延迟的场景。与通用GPU不同,Corsair完全舍弃了训练所需的高精度计算 (不支持FP32/FP16等),转而专项优化低精度推理。它采用PCIe加速卡形式,可以插入标准服务器,与CPU协同处理推理任务。由于架构独特,Corsair需要配套的软件栈(d-Matrix提供自研编译和运行时)将神经网络模型转换为其支持的格式和算子。目前Corsair支持OCP提出的块浮点(Block Floating Point)数格式,具体为MXINT4、MXINT8、MXINT16几种,特点是在一批数据中共享指数以减少计算量。这与GPU传统的FP8/16有所不同,但精度接近FP16而效率更高,是为推理量身定制的数据格式。Corsair的典型应用就是部署已经训练好的大模型,例如不同规模的Llama、GPT模型等,将其权重以块浮点格式加载到Corsair上,由Corsair负责前向推理计算。一句话,Corsair的定位就是做AI推理的“终极算力底座”:谁有大模型要服务海量请求,就买Corsair卡组一个推理集群,比用GPU更省电、更省钱。当然,由于Corsair无法自行训练模型,客户仍需用GPU或TPU等完成模型训练,再将模型交给Corsair推理。因此Corsair并不是要取代训练芯片,而是切入推理环节瓜分蛋糕。考虑到推理在AI算力消耗中占比会越来越高,Corsair瞄准的其实是一块更大的潜在市场蛋糕。从刚需角度看,那些被高昂推理成本所困扰的AI服务提供商,对于Corsair确实充满兴趣 ——如果它真如宣称那样有效,没人会拒绝降低90%的推理时延和成本。d-Matrix显然深谙此道,直接把竞品瞄准Nvidia H100,希望在推理侧复制当年GPU对CPU那样的大翻盘。

核心优势:Corsair的核心优势来自其“数字近存计算”架构,将算术逻辑单元直接嵌入存储阵列,实现数据“算在内、存即算”。具体来说,每个Corsair卡上包含两个主要ASIC芯片 ,通过PCIe互联协作。每个ASIC由四个小chiplet通过高速互连组成,内部集成大量DIMC核心 (Digital In-Memory Compute Core),以及必要的RISC-V控制单元和IO单元。DIMC核心把乘法器直接置于存储单元旁边,使得进行乘累加时无需将数据搬来搬去,在存储阵列内即可完成计算。这极大降低了访存开销和延迟,从而换取数量级提升的内部带宽 。d-Matrix披露,Corsair芯片上实现了150 TB/s 量级的片上内存带宽——相比之下,即便HBM3显存也只有几TB/s带宽级别。可见Corsair架构实现了对HBM的“降维打击”,数据流在片上几乎畅通无阻。这样的设计配合低精度运算,使Corsair在单位功耗和单位时间内执行的推理计算远超传统架构。同时Corsair具备超大内存容量 :每个ASIC板载1GB高速SRAM,两ASIC合计2GB SRAM;此外每ASIC还连接有128 GB LPDDR5内存用于扩展存储,两芯片合计256 GB LPDDR5 ,带宽400 GB/s。虽然LPDDR带宽较HBM慢一个量级,但胜在容量巨大且功耗较低。这种设计允许Corsair卡采取两种模式:高速模式 下模型权重全部放入2GB SRAM中(需模型够小,例如8亿参数级),获得最高性能;大模型模式 下则将大部分权重放入256GB LPDDR中,只有活跃部分缓存到SRAM,尽管会牺牲些速度,但可支持体量极大的模型。根据实测,一块Corsair卡在MXINT8精度下可容纳两个Llama3-70B模型权重 (即两个700亿参数模型)!这意味着像70B这样的业界主流大模型,一个Corsair卡就能完全装下并运行推理。相比之下,GPU通常80GB显存,跑70B模型需要模型并行拆分到多卡且反复通信。可见Corsair在大模型单卡承载力 上碾压传统方案。此外Corsair的计算性能 也针对低精度做了极端优化:每卡含2个Corsair芯片,总共可执行9.6 PFLOPS的INT4运算,2.4 PFLOPS INT8和600 TFLOPS INT16运算。虽然这些是定制格式的等效算力,但量级上已非常可观。正是凭借上述架构红利,Corsair在推理70B模型时才能远超H100 GPU组合——H100受制于显存只能分成多个卡推理,效率损失大,而Corsair一块卡就搞定,效率与能效双高。这种“以特定低精度换通用高精度”的取舍,让Corsair抓住了大模型推理容忍低精度的特点,以大幅缩减计算量换取倍增的性能和成本优势。当然,其优势能否兑现取决于模型算法能否良好适配MX格式。但总体来看,d-Matrix的设计思路是非常有力的,在推理领域开辟了和GPU截然不同的路径。

客户状态:目前Corsair处于小规模试用验证阶段 。官方信息称,Corsair已提供给早期客户测试,并将在2025年第二季度开始广泛供货。考虑到产品形态,d-Matrix很可能与一些云厂或互联网公司合作试点部署,例如微软Azure据传就有测试Corsair用于部分对话模型的推理,以评估节省效果(微软投资d-Matrix本就是为了这目标)。此外,d-Matrix还与硬件厂商合作打造解决方案:例如GigaIO公司推出了一款支持数十张Corsair卡在单节点内扩展的SuperNODE平台。这表明Corsair生态正在建立,服务器厂商开始适配其硬件。尽管如此,我们距离看到Corsair大规模商用可能尚有时日。但在那之前,Corsair仍需踏实走好验证、优化、量产的过程。从投资角度看,d-Matrix目前为非上市公司,普通投资者无法直接参与。但它的表现值得密切关注:如果其技术路线成功,将预示AI推理市场可能走向多元化 ,英伟达的一统天下将被打破。这对整个半导体行业格局都会产生影响。当前,d-Matrix已经站上AI芯片话题榜,有真材实料也有一份“网红”成分。接下来关键看2025年下半年能否传出明确的客户落地案例 ,那将是真正的试金石。

EnCharge EN100:模拟计算,边缘AI的一股清流

市场热度:提到AI芯片的创新路线,不得不说模拟计算(Analog Compute) 。长期以来,学术界一直设想用模拟电路直接进行乘加运算可大幅提高能效,但产业化步伐缓慢。2025年,一家名为EnCharge AI的创业公司让这一思路照进现实:他们推出了全球首款基于高精度可扩展模拟计算 的AI加速芯片EN100 。EnCharge虽然名气不如d-Matrix响,但背后亦实力不凡——它由普林斯顿大学团队创立,2022年成立,至今已累计融资超1.44亿美元,其中2025年2月完成B轮1亿美元,由老虎环球等知名机构领投。显然,资本市场对模拟AI芯片抱有相当期待。这是因为模拟计算理论上 有望实现数量级的能效提升,非常契合AI在边缘设备落地的需求。然而一直以来,模拟技术面临精度不高、一致性差的难关,很多玩家(如Mythic等)最终折戟。EnCharge号称其架构在“精确模拟计算”方面取得突破,能够达到可用的准确度,同时保持超高能效。这引起业内人士广泛兴趣。不少半导体媒体报道EnCharge时,用了“破纪录的效率”“AI芯片领域新范式”等颇高评价。当然,也有人持谨慎态度,认为模拟计算离商业成熟还有距离。但至少EnCharge用真芯片打消了一些疑虑:EN100已实际点亮并演示,成为模拟AI算力走向实用的里程碑。因此,可以说EN100代表了一股与众不同的“清流” :在大家都拼命堆数字电路算力时,它另辟蹊径,在能效上狂飙突进。这种差异化也令其获得不小关注度。特别是在笔记本、物联网这些低功耗场景,EN100的出现称得上给行业注入了一剂强心针。

技术定位:EN100定位于从终端到边缘 广泛场景的AI加速,是一款面向设备侧的推理芯片。它提供两种形态:M.2模块 用于笔记本电脑、嵌入式设备,PCIe插卡 用于工作站和本地边缘服务器。也就是说,EN100不是去跟数据中心的大GPU竞赛,而是要把AI能力下沉,让普通终端也能本地跑复杂模型。例如,装有EN100 M.2卡的笔记本,有望在8瓦左右功耗下达到200 TOPS算力。EnCharge称这相当于“GPU级算力,但功耗和成本只是零头”。因此EN100的出现,有点类似2000年代GPU普及之于PC游戏——现在是给PC和边缘设备插上一块“AI加速卡”。其应用前景非常广阔,包括个人设备私有AI助手、本地隐私保护AI计算、边缘安防监控中的实时识别、工业现场的AI检测等等。尤其在当前数据隐私和延迟要求越来越高的背景下, “AI本地化”是个大趋势。EN100可算踩在这个点上,提供了一种可行硬件方案。可以说,它满足的是未来 千千万万普通设备的AI推理刚需,潜力甚至比几个大数据中心的订单更为庞大。当然,这也要看EnCharge能否顺利将EN100推向市场并被OEM接受。至少目前,它为业界打开了一扇窗——Analog AI不再只是Paper,而是真芯片ready to use。这在投资者眼里,也是很值得关注的突破方向。

核心优势:EN100的杀手锏在于极致能效与充裕内存 。模拟计算的魅力在于可以利用电路元件的模拟特性直接完成乘累加,从而大幅降低每次计算的能耗 。EnCharge虽未公布其核心机理细节,但结果上看相当惊艳:据DCD报道,EN100相较主流数字方案,实现了最高20倍的每瓦性能提升 。例如,在某些AI工作负载下,EN100 M.2模块功耗8.25W即可达到200 TOPS算力;换算下来是24 TOPS/W。而传统数字AI芯片如Nvidia Jetson Orin NX约50W跑100 TOPS,不足2 TOPS/W,EN100能效高出近10倍。如果对比CPU甚至GPU离线运算,那就更悬殊。可见,EN100在能效上的领先不是一点点,而是一个数量级 以上。这种优势对于移动设备、电池供电设备而言价值巨大,因为算力不再被功耗牢牢束缚。其次,EN100提供超大容量的片上内存 :每片芯片可挂接最高128 GB的LPDDR内存,带宽272 Gbps。虽然272 Gbps(约34 GB/s)听起来不算高,但考虑EN100面向边缘,这带宽已经够用,而且128 GB内存容量 远超目前任何SoC或边缘芯片。意味着EN100可以加载极为复杂的模型,比如数十亿参数模型,直接在本地推理,而不用频繁读写外部存储。举例来说,一个60亿参数的LLM模型量化后大约几十GB,完全可放入EN100内存中运行。如果用普通手机SoC的NPU(通常内存不足、算力也不足)是无论如何做不到的。高能效+大内存 的组合,让EN100在边缘设备上具备独一无二的价值:能以较低功耗处理超大模型推理。这为实现如本地大语言模型助手这样的需求提供了硬件可能。当然,EN100采用模拟存内计算架构 ,背后有不少创新:例如EnCharge提到他们结合了模拟计算和内存计算两种技术,以攻克传统数字方案的计算和存储瓶颈。此外,他们强调使用标准CMOS工艺制造,没有用稀有材料,从而易于量产扩展。这些都表明EnCharge在技术上做了大量工作,将模拟的不确定性等问题解决在芯片架构和算法层。例如所谓“精确、可扩展”模拟,可能通过校准、冗余和数字修正等手段实现了接近数字电路的精度。有了这些保证,EN100才能真正落地,否则单有能效没精度也不行。

客户状态:当前EN100已推出工程样片,并启动了早期访问计划 ,提供给开发者和OEM试用。据报道,EnCharge已经与一些合作伙伴洽谈,包括笔记本和工业PC厂商,希望将EN100嵌入下一代产品。目前尚未公开具体客户名单。但考虑到联想、戴尔等PC巨头都在关注AI PC概念,不排除其中有厂商正在评估EN100 M.2方案。如果试用顺利,我们有可能在2025年底或2026年的笔记本高端机型中见到搭载EN100的“AI加速模块”。同样,针对工业边缘的PCIe加速卡版EN100,也可能被公司用于本地AI推理服务器,替代功耗更高的GPU。EnCharge自己强调,EN100可以让先进、安全、个性化的AI在本地运行,无需云端 。这正是许多企业和个人的痛点需求所在。因此EN100一旦稳定量产,潜在客户面非常广泛。当然,现实中也存在挑战:模拟芯片往往需要精心校准,能否保持一致性、良品率如何等,都需要进一步观察。EnCharge称其架构已在多代流片中验证,有信心规模化生产。融资的注入也会加速其商业化。目前可以说EN100正处于从实验室走向市场的关键跨越 。乐观估计的话,2025年下半年会出现基于EN100的小批量商用产品面世,那将验证市场反馈。如果顺利,EnCharge很可能引领一波模拟AI芯片热潮,甚至成为独角兽;若表现不佳,也可能重蹈前人覆辙。但不论如何,EN100让世界看到了数字之外的另一种可能性。对于国内产业而言,也有一些团队在研究存内/模拟AI计算(如清华学者的相关论文成果)。EnCharge的实践经验无疑值得借鉴。如果国内能在类似技术上取得突破,说不定在追赶GPU无望的背景下,实现某种“弯道超车”。因此,我们特别关注EN100项目进展。资本市场上,目前EnCharge未上市,但其背后大股东之一三星也在密切合作,或许未来存在被大厂并购的可能。如果真那样,也是一种成功退出路径。综上,EN100既有高技术风险又蕴藏高回报潜力,是投资者眼中 典型的硬科技赌注。在AI算力需求无处不在的未来,如果EN100这样的产品成熟起来,我们或将迎来“AI本地化”时代的春天。

SiMa.ai MLSoC Modalix:边缘多模AI的新势力

市场热度:SiMa.ai是一家硅谷创业公司,专注嵌入式边缘AI 解决方案。它的名气虽不如前几位,但在其细分领域却颇有建树:早在2022年SiMa.ai就推出了第一代Machine Learning SoC(MLSoC)芯片,用于高能效的边缘视觉处理,号称性能功耗领先同侪。进入生成式AI时代,SiMa.ai顺势而上。在2025年3月,该公司发布了新一代产品MLSoC Modalix ,并与模块厂商Enclustra合作推出基于Modalix的系统级模块(SoM)。Modalix瞄准的是多模态边缘AI 应用,特别是将大模型(如语言模型)和传统CV模型结合起来,在低功耗设备上实现复杂AI任务。SiMa.ai宣称Modalix芯片比当前主流边缘AI方案有10倍以上的每瓦性能优势 ,可以在同等功耗下跑更大的模型或更多路AI任务。这一卖点吸引了不少眼球:因为此前边缘AI大多聚焦图像识别等单一任务,很难运行语言模型之类的数据密集型应用。如果Modalix真能打破这限制,那将打开边缘AI的新天地。SiMa.ai在融资方面也很亮眼,截至2025年已累计融资约3.3亿美元,投资方包括Dell资本、Fidelity、Maverick等知名机构。可见资本市场认可其技术和市场前景。近期还有消息称,思科与SiMa.ai达成合作,将结合Modalix和思科工业交换机方案,提供实时工业边缘AI解决方案。这些都表明,SiMa.ai正逐步从幕后走向台前 ,成为边缘AI芯片新势力中不可忽视的一员。

技术定位:Modalix芯片是一款多功能AI SoC ,旨在低功耗场合实现多模态AI推理 。不同于只包含加速器的芯片,Modalix集成了8核Arm Cortex-A65应用处理器专用ML加速器ISP图像信号处理视频编解码 以及各种I/O接口。可以看作是一个完备的小型系统,既能跑操作系统和常规程序,又能高效执行AI推理任务。因此Modalix并非只针对某单一任务,而是希望在如机器人、无人机、安防摄像头、车载终端等边缘节点 上,一颗芯片包揽感知、决策、控制等多重AI工作负载。这和过去边缘设备需CPU+GPU/NPU+DSP多芯片组合形成鲜明对比——Modalix试图All-in-One 。SiMa.ai的产品路线历来强调“软件先行”,提供易用的开发环境,使传统不用AI的嵌入式开发者也能上手MLSoC。因此Modalix芯片定位是嵌入式AI计算的通用平台 。特别针对当下兴起的边缘生成式AI需求(如本地运行小型语言模型、边缘执行语音对话等),Modalix希望成为首批能胜任此类任务的低功耗芯片之一。从刚需角度看,随着工业4.0、智能安防和自动驾驶等领域发展,边缘侧对实时AI处理的需求暴增,而云端处理受限于时延、带宽甚至隐私因素,本地AI 势在必行。Modalix正是为此而生,可说踩在了趋势上。SiMa.ai甚至喊出口号要做“边缘的黄金标准”(Edge AI at scale)。虽然这个野心是否实现尚需时间,但Modalix瞄准的市场确实广阔且日益重要。

核心优势:Modalix MLSoC的优势可以从性能功耗比、模块化兼容 两方面来看。首先,性能功耗比 :据SiMa.ai实测,Modalix在多种多模态AI应用下,每瓦性能比当前最佳方案高出10倍以上。以具体数字来说,Modalix芯片本身提供50 TOPS 算力,典型功耗估计在几瓦级(官方未公布但根据上一代推测在5200 TOPS,Modalix可能10W就50 TOPS,综合考虑效率高许多。当然具体任务不同效果不一,但SiMa.ai有信心给出10倍这个平均领先幅度,可见Modalix架构在低功耗优化上做得很不错。其次,Modalix支持多芯片集群 :两芯片组成100 TOPS节点,四芯片达200 TOPS ,并可做成PCIe加速卡形式提供给更高性能需求的边缘服务器。这让Modalix具备一定扩展性,不局限于单颗使用。例如工业场景需要更多算力时,可插两张4芯片卡到一台边缘机器里,获得400 TOPS性能,比肩小型数据中心服务器,但功耗和成本低很多。再次,Modalix强调了生态兼容 :通过与Enclustra合作,其推出的SoM模块号称能“无缝集成进当前主流GPU SoM提供商的系统”。这里虽未指名道姓,但几乎可以断定指的是Nvidia Jetson模块生态。Enclustra提供的Modalix SoM据称针脚和尺寸与Jetson AGX系列相容,让已有采用Jetson的硬件设计可以平滑更换为Modalix模块。这招相当聪明,因为边缘设备开发者对硬件改动很慎重,如果Modalix模块能即插即用替代Nvidia的而获得更高能效,自然容易被接受。同时,Modalix的软件栈兼容主流的TensorFlow Lite、ONNX等模型格式,迁移成本低。集成度高 也是Modalix卖点之一:嵌入式系统需要的不只是算力,还有各种传感处理。Modalix内建ISP和视频编解码,可以直接接相机传感器,输出处理后的视频流给ML加速器做分析,再由CPU统筹。这种紧密耦合避免了多芯片之间的数据搬运,提高效率、降低延迟。在一个安防摄像头里,可能过去需要Arm SoC+独立NPU+FPGA,现在一颗Modalix全搞定,功耗还更低。最后提一下软件易用性 :SiMa.ai的SDK以拖拽式图形界面著称,让不懂AI的工程师也能部署模型。据用户反馈,一些经典CV模型迁移到SiMa.ai MLSoC上非常快捷。这种软硬结合 的优势,使Modalix不光硬件强,还易于应用落地。

客户状态:Modalix芯片已于2025年1月开始提供工程样片给客户测试。SiMa.ai也开启了早期访问计划,让客户注册获取Modalix SoM样品。目前,官方提到的合作伙伴包括Enclustra(硬件模块商)和思科(应用合作)等。特别思科的参与表明Modalix已进入工业物联网/边缘 的重要应用场景,有望随思科方案一起推向市场。再考虑投资方Dell资本,Modalix可能也在同Dell嵌入式部门或Edge计算产品线对接。这些迹象都表明Modalix距离实际产品化很近了。SiMa.ai本身没有大规模制造线,预计会通过代工和合作伙伴生产SoM模块出售。按照计划,2025年内Modalix将实现小批量量产并嵌入客户产品 。如果一切顺利,明年我们或许能看到某些工业视觉设备、无人机控制器、甚至商用机器人里出现Modalix的身影。SiMa.ai此前产品已有一些成功案例(如国防领域边缘AI项目),这次Modalix瞄准更大众市场,希望复制成功。目前客户对Modalix的反响据称积极,一些测试者验证其性能功耗确实达标,多模态处理效果好。当然也存在挑战:边缘市场碎片化严重,Modalix要攻克各行业客户需要资源;另外Nvidia、Intel等亦不甘示弱(如Nvidia将推更强的Jetson下一代)。SiMa.ai能否跑在大玩家前面守住优势,要看执行能力。就投资看,SiMa.ai融资充足,且有退出可能(不少人猜测Dell或思科终将收购之,将Modalix收入自家产品线)。所以SiMa.ai目前虽未IPO,但已属估值不低的明星初创公司。如果Modalix顺利商用并业绩亮眼,其投资回报将非常可观,反之若不达预期,也可能后续融资遇冷甚至被边缘化。因此今年对Modalix来说是关键一年。总的来说,我们对Modalix持审慎乐观态度:技术和市场契合度高,团队务实有前代成功经验,若无意外很可能成为边缘AI芯片领域的一支新锐劲旅

割据混战中的黄金分割点在哪里?

综上所述,2025年的AI芯片战场呈现出群雄逐鹿的格局:有英伟达 这样的绝对王者凭借Blackwell Ultra继续冲锋陷阵,也有AMD 携MI355X奋起直追、围魏救赵;有亚马逊、谷歌 这样财力雄厚的巨头另辟蹊径,自给自足打造专用芯片;还有d-Matrix、EnCharge、SiMa.ai 等初生牛犊,用全新架构在特定细分领域向传统算力发难。这场“推理芯片内战”可谓热火朝天,精彩纷呈。对于投资者和产业观察者来说,我们更关心的或许是:谁能笑到最后?当前的估值与前景是否匹配基本面?中国本土厂商有没有机会后来居上?在此我们尝试给出几点判断。

首先,从估值与基本面支撑 角度:

Nvidia依然稳坐钓鱼台,但未来预期已高 。英伟达凭借GPU在AI算力市场一家独大,短期基本面相当强劲——H100持续供不应求,Blackwell Ultra订单在手,营收和利润有望继续爆发式增长。因此目前其高企的估值(几十倍PS,万亿市值)在短期由真实业绩支撑尚可。然而,市场对其增长预期已非常饱满,可以说美好前景都price-in了。一旦后续有任何风吹草动,比如竞争加剧 (AMD蚕食份额,云厂自研减少采购)或需求不及预期 (AI投入热潮降温),股价都可能剧烈波动。

AMD潜力与不确定性并存 。AMD的股价相对低于Nvidia很多,其AI故事在资本市场刚刚起步。MI300系列若真能打开局面,哪怕只拿下10-20%的高端加速卡市场,对于AMD营收和利润都是显著增益,可能带来戴维斯双击的机会。从目前看,AMD已经在超算和部分云厂站稳了,而且强调性价比路线,这符合大客户降本需求。但同时,AMD面临的挑战也不少:软件生态短板依旧、供应链和产能可能不如对手、以及Nvidia可能的价格战和产品快速迭代反击。因此,AMD胜出的概率和幅度还很不确定

Amazon、Google等巨头借AI降本增效,利好长远竞争力 。亚马逊和谷歌自研芯片不直接对营收做贡献(不会对外销售芯片),但间接提升利润率 和业务护城河。以AWS为例,Trainium2让其云AI算力成本更低,能以更具竞争力的价格争夺客户,同时提高自有服务的盈利能力。这种内部收益难以量化,但长远看有助于AWS市占率和利润率双升,对亚马逊整体价值是正面。

AI芯片初创公司:高风险高回报的赌注 。d-Matrix、EnCharge、SiMa.ai等公司的估值目前主要在私募和风投层面,尚未公众交易。但它们的存在提醒我们,AI硬件创新并非止步于GPU。对于风险投资者来说,这些初创公司如果成功,其估值增长可能是数倍甚至数十倍的;而失败则血本无归。目前看,三家公司里d-Matrix呼声最高,微软加持、产品接近落地,一旦拿下实单极可能冲击IPO或被大厂高价收购。从CRN等报道看,业界认可其技术潜力,只等验证兑现。如果d-Matrix证明可行,那Nvidia的股价恐怕都要受到冲击,因为意味着推理市场利润池被撬开。此外,EnCharge和SiMa.ai则相对专注在新兴市场:前者瞄准终端设备,后者主攻边缘多模态。它们若成功,会开启各自领域的新市场,想象空间也很大,但相对不直接威胁Nvidia的基本盘。对于普通投资者来说,无法直接投资未上市的初创公司,但可以通过关注大公司的生态反应 来间接参与:例如,观察Nvidia、AMD未来产品路线有没有吸纳这些新技术(如Nvidia也在TensorCore里引入块浮点、或发布模拟计算方案等)。又比如,留意收购动态 :不排除Nvidia或Intel为了消除威胁,出手并购这些初创公司的可能性。一旦发生,将影响相关上市公司股价。因此,这些初创公司是半导体行业创新的风向标,它们的成败值得密切跟踪。

 

再看国产能否替代 方面:

老实说,就目前态势,国产芯片想在短期内替代上述顶尖AI芯片,难度极大。无论Nvidia Blackwell还是AMD MI300,都是在台积电最先进工艺上打造的怪兽芯片,而国内因制裁原因无法直接获取3nm/5nm 制造产能,只能退而求其次。此外,芯片只是问题一半,另一半是软件生态 。Nvidia靠CUDA壁垒经营十几年,国内厂商如寒武纪、壁仞等在生态上起步较晚,短期难以形成完整配套。因此,基本判断:高端AI芯片国产化替代在2025年基本无法实现 。具体来说,大模型训练所需的算力,目前国内可能连A100级别都未完全达到,更别说追赶H100/Blackwell这代了。当然,在某些特定领域 ,国产替代或可部分实现。例如,边缘侧华为昇腾310等AI芯片在国内应用较广,能满足不少嵌入式AI推理需求,但它不能与Blackwell这类超高端芯片同日而语,只是在低端避免了进口依赖。还有一些国内创业公司探索低精度计算存内计算 ,思路类似d-Matrix或EnCharge,希望以不同路径突围。如果这些路线取得突破,倒有可能绕开制程封锁实现优势。但这些仍处于研发或小规模试验阶段,离商用还有距离。总的说来,在2025这个时点,中国AI芯片整体水平落后国际最先进一至两代 ,想完全替代不现实。不过,并非没有一线生机:正如上文分析的d-Matrix、EnCharge等思路,其实国内也有人在研究。中国拥有庞大本土AI应用市场,这既是挑战也是机遇。如果能够聚焦推理等落地场景,用差异化创新 来切入,也许能找到立足点。比如国内某些模拟计算项目、光计算项目,若能避开最尖端工艺限制,做出有实用价值的产品,就可能实现在局部领域的弯道超车。但这毕竟是少数,短期主战场上,国产难以对抗Nvidia们。综合判断,在可预见的1-2年内,国产AI芯片无法实质性替代进口顶尖产品在大模型训练和推理上的地位,更多会扮演补充角色。但我们也不应气馁,而要鼓励国内在新路径上探索 ,因为唯有形成自有知识产权的独特技术,才有可能绕过封锁建立优势。

最后回答“还能不能投? ”。AI芯片领域波诡云谲,但机会与风险并存。对于不同投资者,策略应有区别:

偏保守的投资者 ,可以关注巨头中受益于AI趋势且估值尚合理者

激进进取的投资者 ,可适当关注AI芯片新秀和相关标的 。直接投资未上市初创公司不易,但可以挖掘其背后利益相关的上市公司。如果相信这些初创公司会成功,不妨看看其产业链伙伴,有时大公司一个小动作(比如Cisco收购SiMa.ai)就能带来投资机会。再者,FPGA厂商 可能受益于新架构兴起,因为很多初创验证阶段用FPGA,加上FPGA能在推理领域发挥弹性优势。像Xilinx已被AMD收购融入产品阵列,Intel的Altera FPGA也可能在推理市场有一席之地。这些都是间接受益的方向。当然,激进投资最大的赌注莫过于直接投初创公司的股权,这需要专业VC/PE渠道,不在本文讨论范围。但其高风险高回报属性需强调:成功者凤毛麟角,大部分初创芯片公司其实都难逃失败或平庸命运。投资者若非深度懂行,不宜盲目all in某条技术路线。

中国投资者 ,在当前环境下更需冷静客观。AI芯片虽然炙手可热,但不要被概念炒作迷惑 。A股市场时常蹭热点,一听“国产GPU成功流片”“某某算力服务器发布”就哄抬股价。然而真实落地和商业回报有天壤之别。务必要看清公司在产业链的位置和壁垒。如果只是买了别人的芯片回来组个板卡,那并没有核心竞争力,风口一过可能跌回原形。中国有一些值得关注的公司在AI加速领域深耕(比如寒武纪、景嘉微、燧原、壁仞等等),但短期业绩压力大,竞争也激烈,并且面对国外巨头狙击和制裁,前路崎岖。投资这类公司需要很强的风险承受能力和长线眼光,不排除其中将来跑出“国产Nvidia”,但中途淘汰也会很多。相对来说,可以多留意国内在特殊赛道的创新 ,如有团队做出了d-Matrix类似的存内计算芯片或EnCharge类似的模拟芯片,如果数据亮眼,那可能是一鸣惊人的黑马(因为走差异化才有胜算)。另外,国内资本大可以通过参与跨境并购 等方式布局:未来不排除一些海外初创的技术中国可以引进或合作。如果监管环境允许,这可能是快速提升国内算力能力的途径。当然,目前地缘政治复杂,这类投资要谨慎评估政策风险。

综上,判断2025年的AI推理芯片领域,没有单一绝对的“黄金分割点”赢家 。我们相信,推理芯片内战远未结束 ,未来几年鹿死谁手尚未可知。不过可以确定的是,AI算力需求只增不减,这场竞赛将长期进行下去,各方都会有机会书写各自的传奇。至于2025年,会不会成为回望历史时的拐点年份——在这一年,AI硬件格局由一家独大开始走向多极争霸——还有待时间检验。对于我们投资者,需要做的就是保持冷静与敏锐,既不盲从炒作也不错失良机,在喧嚣中找准属于自己的“黄金分割点”。

投资如棋局,对手疯狂你当冷静,对手犹豫你要果敢。在这AI芯片鏖战之际,也是同样的道理。让我们拭目以待,下一个胜出者将从何处崛起,王冠花落谁家。也许几年后回头看,今天的竞争正孕育着明日的王者,而我们所坚持的理性判断,终将带来丰厚的回报。

© 2025 AI资讯 - 用冷静的智慧预见下一个未知

京ICP备2025144713号-1

主体备案单位:北京预见花开网络科技有限公司