“求寒武纪原厂销售资源!”、“找做沐曦的朋友,有个项目急询报价!”
算力市场的风向,正悄然生变:没等来英伟达B200的火爆行情,反倒见证了国产算力的逐渐崛起。
“今年公司一定会落地国产算力项目,目前正在与一家已过会的国产芯片企业深度洽谈。” 头部算力租赁公司项目负责人林海的话,道出了行业内的普遍共识。
据雷峰网了解,这一行业共识已在头部企业落地生根:某头部互联网厂商已经完成全系列国产芯片适配测试,并规划将部分业务场景切换至国产方案。这样的动作并非个例,而是各大厂商基于供应链安全与业务发展需求,形成的集体选择。
市场端的迫切需求与企业层面的主动布局相互呼应,资本端也在迅速跟进。雷峰网了解到,国内唯一专注于集成电路产业的融资租赁公司,正在推进一个国产算力项目的放款。更多国产项目落地信息,欢迎添加作者微信 YONGGANLL6662 互通有无。
金融机构对回报的测算向来苛刻,而这笔资金的注入,恰恰印证了在政策补贴的加持下,国产算力已具备商业化可行性。
据公开资料显示,国产算力项目商业化进程正在加速:科大讯飞与华为联合打造的国产算力集群,在MoE模型训练上实现93%的效率;寒武纪MLU系列芯片迈入三大运营商的算力资源池;中科院部署了4096张沐曦算力卡,共计984P算力;蚂蚁集团已部署万卡规模的国产算力集群,训练任务稳定性超过98%。
商业化的扎实进展、国产替代的高度共识,正推动一二级市场对国产算力赛道的热情全面释放。
2025年7月,曦望宣布完成近10亿元人民币的Pre-A轮融资,昉擎科技宣布完成总计数亿元人民币的天使轮融资;10月,AI算力芯片创业公司玉盘完成天使轮融资,投资方为源本基金。摩尔线程、沐曦已进入IPO最终决赛圈,一级市场又涌现出哪些新的优质标的?欢迎添加作者微信 YONGGANLL6662 交流更多信息。
二级市场更显火爆,算力及半导体板块成为领涨主线,中证半导体产业指数近三个月上涨42.48%,寒武纪、海光信息等核心企业股价年内实现翻倍,半导体设备、国产芯片ETF频繁异动拉升。
外资机构也敏锐捕捉到这一市场信号。据雷峰网了解,多家外资机构正加速入场调研国内算力产业,国产芯片正是其布局核心。
这一趋势已直接传导至市场交易端,与国产算力的替代浪潮形成鲜明对比的是,曾经炙手可热的英伟达设备,已难现往日火爆行情。
“纯靠倒货赚差价?现在这行情还不如把钱存银行稳当。” 服务器经销商张翔的话道出行业现状,“2023年,一台A100转手就能赚十万,现在除非你是一手货主,不然卖一张4090也就赚200块钱。”
微薄利润让不少跟风涌入的从业者铩羽而归。“没人觉得做英伟达设备贸易还有盼头,要么转头销售国产算力,要么回归老本行,很多从通信行业下场的人,已经重新回去卖带宽了。” 张翔补充道。
更让人头疼的是交易中的信任危机:定金诈骗、期货违约屡见不鲜,海外供应商潜逃导致维权无门的案例不在少数,甚至出现“交款后保管对方网银及U盾”的极端信任方式。当曾经的“香饽饽”变成高风险、低回报的“烫手山芋”,市场目光已转向更具稳定性与发展潜力的国产算力赛道。
此前,国产芯片一直面临诸多质疑。如今,政策支持、技术迭代与市场需求如何形成合力,让国产芯片正一步步成为“可选项”?未来的算力江湖,又将迎来怎样的格局重塑?
01、最高补贴达80%,国产算力与英伟达的「性价比差距」逐渐弥合
“7月份,我们总部发布了一份西北地区算力项目清单的文件,要求各地分支机构对口援助西北地区的算力项目。”某大型金融机构算力项目负责人表示。
这并非个例。据悉,多家大型国有金融机构或已接到相关通知,要求对八大节点的算力项目开展针对性帮扶,尤其向国产算力项目倾斜,不仅提供专项资金,更主动降低资金获取门槛,解决“资金难”的问题。
除了引导社会资本加码支持,实打实的补贴政策,更成为弥合国产算力性价比差距、撬动市场选择的关键“杠杆”。
曾经,国产算力深陷商业逻辑的困境:相关测算显示,英伟达每P算力价格约12.5万元,而国内头部芯片厂商每P算力价格达35万元;更关键的是能耗差距,同等算力需求下,国产设备需投入更多台数,单台能耗也更高,整体能耗是英伟达的3-5倍。在纯市场驱动的情境之下,几乎没有理由采购国产算力设备。
如今,补贴政策正打破这一僵局:北上深杭等承担国家人工智能发展任务的城市,可享受40%的国家全额补贴,若叠加地方政府的补贴,最高补贴金额可达项目总投入的70%-80%,此类项目多由“国家队”操盘落地;八大算力节点城市则是获得10%-15%的基础补贴,叠加超长期国债与地方补贴后,力度最高可达40%。
“早在数月前,我们就接到了发展国产算力的文件,国产化已是明确方向。” 国产智算中心负责人陆柯直言。其负责的智算中心以华为昇腾910B芯片做为算力基座,根据客户所签订的合同时间以及需求数量,设备月租价格在2-3万元浮动,而该中心所在的西部城市,推出市、区两级消纳补贴,区级补贴50%、市级补贴 60%。
这意味着,若消纳100万元算力服务,最低实际仅需支付40万元,对需求方而言吸引力十足。
为杜绝套壳骗补,各地也明确了消纳方资质要求:要么是互联网大厂等指定主体,要么是在当地注册且形成一定规模的企业,唯有带动当地GDP增长,缴纳税款的主体才能拿到补贴。
值得注意的是,据雷峰网此前首发报道,最新“窗口指导”文件明确要求:有补贴等地方力量参与的项目,需全部使用国产芯片;即便部分项目已开工建设,若当前进度较低,仍可要求拆除已使用的国外芯片。
从金融机构的定向帮扶、梯度化的补贴激励,到“国产化优先”的明确要求,政策端正从资金、市场、规则多维度发力,为国产算力扫清障碍。欢迎添加微信 YONGGANLL6662 交流更多国产芯片最新政策动向。
02、英伟达并非推理场景「最优解」,国产方案性价比更高
政策护航并非从国产芯片诞生之初就已经制定,而是随着技术、产品以及应用场景的逐渐成熟,在关键节点顺势发力。
“这次国产算力热潮与上一轮周期存在显著差异。” 并行科技国产事业部负责人宋志方直言,“五年前的热潮更多聚焦于资本层面,应用场景相对稀缺,而DeepSeek等模型的落地,让国产算力真正进入行业视野,下游需求的爆发式增长形成实质性带动。更关键的是,国产芯片厂商已经完成2-3代产品迭代,达到了可对标英伟达主流卡水平。”
寒武纪以思元系列构建云边端全栈布局,软件平台Cambricon NeuWare全面兼容最新PyTorch版本和Triton算子开发语言;沐曦发布首款全国产通用GPU曦云C600,推出MXMACA软件栈技术体系,单机16卡即可支持百任务毫秒响应;摩尔线程S5000性能追赶业界领先水准,依托MUSA架构,实现第三代产品达成千亿参数大模型高效训练。
在诸多应用场景中,推理需求的爆发将成为国产算力最重要的突围窗口。
外界看来,模型的迭代速度放慢,而杀手级的应用也暂未出现,由此判断算力需求正在阶段性停摆。事实上,以搜索为例,每一次搜索都在产生推理的需求,互联网形态已经被AI重构。
火山引擎总裁谭待披露,豆包大模型日均Token用量从2024年5月的1200亿飙升至2025年9月的30万亿,增幅达253倍。更具行业代表性的是,全行业推理Token总用量较2023年已实现300倍跃升。
沙利文分析相关数据显示,2028年中国推理算力市场规模将达2931.2亿元,行业对于推理技术进步有着迫切需求。AI推理需求何时爆发?哪项推理优化技术更为高效?欢迎添加微信 YONGGANLL6662 互通有无。
明确的需求之下,推理任务的技术特性为国产算力提供了精准适配的空间。
推理任务多采用Decoder架构,其核心逻辑是单个查询向量(Query)与键向量(Key)、值向量(Value)进行注意力计算(Attention),单次输出一个Token,本质是通过单个Token与静态参数开展局部计算。这意味着推理无需盲目追求“极致计算性能”与“训练级超大容量HBM”,而应精准匹配场景需求,以支撑大规模、低延迟的推理业务落地。
针对推理应用场景,国产芯片厂商正在不断迭代方案。
华为基于910B的硬件特性,在DeepSeek部署场景中开展了大量探索,推出针对性的专家并行方案,实现大规模推理业务的性能加速。专家并行方案显著降低了单卡显存占用,并将单卡并发能力提升至3倍,使企业能够在相同算力投入下获得更高的推理吞吐量。
此外,高显存是国产芯片在推理场景中的核心优化方向,910B搭载64GB显存,平头哥与昆仑芯的相关产品则将显存容量提升至96GB。
除了硬件产品本身的性能与配置升级,推理场景对算力弹性与成本优化的需求,还推动了异构集群的落地应用。多元算力协同的模式,进一步拓宽了国产芯片的生存空间。
“针对推理业务,年初行业对PD分离技术抱有高度期待,PD分离技术本身能带来的性能优化大约是20%,但其优势在于能将推理过程中的Prefill阶段(计算密集型)与Decode阶段(显存密集型)拆分开来,这不仅保障了大规模部署的可行性,也为两个阶段的差异化适配与优化创造了条件。” 宋志方表示。
据悉,天数智芯天垓150与英伟达H20组成的异构集群,已成功应用于DeepSeek的大规模推理部署场景,天垓150作为P节点,专门承接计算密集型任务处理,配备141GB显存的H20作为D节点,专注承载显存密集型相关工作。
“搭配国产芯片和英伟达芯片的方式去实现PD分离,对比纯英伟达方案,在能耗以及成本方面一定是更优的。”宋志方表示,“一般会认为英伟达的解决方案是最优解,但从代码的角度讲,Prefill阶段的每次请求计算量都很小,采用性能更强的芯片,计算速度会更快,但无法发挥芯片的完全的计算能力,因此采用国产芯片反而性价比会更高。”
03、渠道封闭、产能受限、需求放量,国产芯片步入「卖方市场」
随着应用场景的持续成熟,国产芯片的市场需求日益清晰。
“一款芯片能不能真正跑通市场,核心在于能否抓住需求爆发的窗口,用户愿意为产品买单才是最根本的逻辑。” 前芯片厂商研发专家杨涛表示。
这一说法,在当前的AI芯片市场的增长态势中也得到了充分印证。
“国内AI芯片市场正进入高速增长通道,每年增长50%的判断相对客观,甚至有望达到70%-80%的增速。”服务器厂商资深专家夏雨补充道,“这一强劲增长的核心驱动力,来自推理算力需求的持续释放与多模态应用的全面爆发。”
此前长期以英伟达为核心的算力贸易,在政策、技术及市场等因素的影响之下,已逐渐让渡份额给国产芯片。
“芯片贸易门槛不高,可复制性极强。”张翔直言,“以当前的B200设备为例,如今市场行情已高度透明,无论是贸易商还是终端客户,都对设备基准价格及合理利润空间了如指掌,不存在信息差带来的额外收益。”
不少从业者表示,当前售卖最新款英伟达设备能实现10万元毛利已属可观,其投入产出比已远不及从前。
相比之下,国产芯片独特的分销体系与市场特征,使得其贸易环节的信息透明度相对较低,客观上为贸易商保留了更稳定的利润空间。贸易商的转向,也将进一步激活国产算力生态。
独特的分销体系,核心以“公对公”合作为主,一方面,受限于产能供给,头部大客户的需求已能充分消化国产芯片厂商的现有产能,以某头部芯片厂商为例,其采用白名单供应机制,仅向大型企业及国企开放合作。另一方面,AI芯片对技术服务的依赖度极高,在多数应用场景中,后续的技术支持、模型适配等服务仅能由芯片原厂提供。
“直销是目前最好的方式,因为贸易商普遍不具备技术服务能力,且国产芯片多为项目制,芯片原厂直接对项目负责。”某国产芯片厂商市场负责人铁云表示。
这一模式下,芯片厂商在服务器硬件适配方面也有着清晰的合作布局。
据悉,寒武纪合作的服务器厂商为浪潮,昆仑芯合作服务器厂商为新华三,从芯片厂商的角度,一般会选择1-2家服务器厂商进行合作,一般是1家大型OEM厂商为主,帮助芯片厂商定制机型,再搭配一个规模较小的服务器厂商作为储备。
值得注意的是,即便服务器厂商是芯片厂商的关键硬件合作方,其技术服务能力仍难以达到原厂水准。因此在实际合作中,涉及技术支持、模型适配等核心环节,仍需芯片原厂直接介入。这也决定了最终的销售路径并非由服务器厂商直接出货,而是由服务器厂商完成硬件组装后,再由芯片原厂主导销售与后续服务。国产芯片分销体系的更多玩法与内幕,欢迎添加微信 YONGGANLL6662 交流探讨。
此外,国产芯片的货源不易在市场上流通,还与服务器厂商的备货逻辑密切相关。站在服务器厂商的角度,通用性较低的产品市场接受度低,客户需求差异大,一旦备货后未能及时售出,极易造成库存积压;而通用性强的产品可复制性更高,更易实现规模化销售,因此很多通用性低的产品,服务器厂商通常没有备货,进而导致流入市场的国产设备数量减少。
国产芯片公司也会储备经销商,但仅限于分销部分中低端型号的产品,以及负责服务中小客户,而且做为代理,也能起到为国产芯片厂商垫资的作用。
直销主导的销售路径、服务器厂商对通用性不足产品的审慎备货,再加上经销商仅覆盖中低端型号的分销局限,多重因素叠加,国产芯片逐步走入卖方市场。
04、国产算力市场新局面:窗口期竞速、超节点破局、价格逐渐下探
当下的国内算力市场正迎来洗牌期,A100淘汰换代、推理需求爆发都将为国产芯片的发展提供窗口期,这也不可避免的让国产芯片迎来最激烈的竞争期。
在这一背景下,市场对国产芯片的落地效率提出了更高要求。
“一款芯片产品量产推向市场后,若一年内仍未能形成商业化批量采购,本质上意味着产品商业化落地不成功,因为考虑到半导体行业的高速迭代,市场留给企业实现规模化落地的窗口期,往往仅有一年到一年半时间。”铁云表示。
而要在短窗口期内快速突破市场、抢占份额,单纯比拼单卡性能的传统路径已难以为继,系统整体效率与规模化部署能力的重要性日益凸显,最直接的表现便是催生了超节点产品的崛起。
目前国内超节点产品生态逐渐丰富:昇腾384超节点集成384颗昇腾910C AI芯片和192颗鲲鹏CPU,通信带宽提升15倍,支持数万卡集群扩展;平头哥磐久AL128超节点单柜集成128张加速卡,实现训练端到端加速比3倍提升;中科曙光scaleX640超节点实现全球首个单机柜640卡超节点,MOE大模型训练效率提升30%-40%。
“超节点是AI时代的基础设施形态,其解决高效通信的问题,让集群的效率大幅提升,也就变相的降低了成本,原先1000张卡才能实现的效果,现在或许500张就足够了。”夏雨表示。
超节点的核心竞争力体现在两方面:一是芯片本身的性能表现,二是互联链路与架构的优化能力。尽管国产芯片单卡性能与英伟达存在差距,但国内厂商在网络互联技术领域具备差异化优势,通过扩大工程化集成规模,实现了整体性能的弯道超车。
要将这种优势转化为市场份额,定价策略与市场铺设节奏成为关键。
相关行业人士透露,头部厂商的单套超节点产品落地价约7000-8000万元,目前厂商为加速市场渗透、快速铺开应用场景,持续下调价格,部分项目折扣力度可达五折。
“芯片行业本身具备较高利润空间,英伟达相关产品毛利约70%,即便适度让利甚至以低毛利策略拓展市场,仍具备可持续性。”夏雨表示。
此外,超节点作为硬件集群形态的创新,其性能发挥与规模化落地,最终离不开软件生态的深度协同。
软硬件协同是国产AI芯片的重要考题:在生态层面,国产厂商仍处于“各立标准”的分散状态,华为昇腾依托MindSpore框架与Ascend API,寒武纪则基于Cambricon NeuWare平台打造专有接口,沐曦、壁仞等也需适配PyTorch/TensorFlow的自定义算子接口。
这种“无统一标准”的现状,导致开发者若想在不同芯片间迁移模型,需重新做算子适配、性能调优,甚至修改底层代码。以千亿参数大模型迁移为例,从英伟达GPU转向国产芯片,往往需要1-3个月的适配周期,这正是生态建设门槛高、壁垒深的核心原因。
铁云认为,AI领域尚未形成类似图形计算领域DirectX、Vulkan的全球通用标准API。若未来行业能诞生统一的API标准,将大幅降低生态建设门槛,打破当前不同技术路径下的生态壁垒,届时生态竞争格局或将迎来根本性改变。
需求爆发、市场交替、技术迭代的周期变化之下,美元基金投资人张音表示,“明年,AI产业的关注重点将回归算力基础设施投资建设。”国产算力热潮,不是短期资本炒作的 “风口”,而是技术迭代到一定阶段、需求积累到特定程度的必然结果。
作者长期关注算力与芯片产业,欢迎添加微信 YONGGANLL6662 交流更多信息。
注:文中林海、张翔、杨涛、夏雨、张音均为化名。
全部评论