都在说缺算力,90% 的 AI 芯片却被「浪费」了?

极客公园   |   宇航猿,编辑:靖宇
2026-06-30 09:41:27  分钟 14    阅读需  3960 字数 

全球最昂贵的浪费,正发生在最聪明的公司里。

当你正 Vibe Coding 嗨到不行,或者跑着的项目突然停摆,打开 CLI 工具一看,「你的额度已用完」字样出现时,心态不崩是不可能的。

你还别问,问 AI 公司就是「缺算力」。

但事情真的如此吗?

Epoch AI 的分析师估算,到 2025 年底,OpenAI 等效拥有的算力约相当于 170 万块 H100。这个数字在 2023 年是 10 万块,2024 年是 40 万块——两年暴增 17 倍。英伟达市值突破 3 万亿美元,全球科技巨头每个季度砸下数百亿美元抢购芯片。一切看起来都指向同一个叙事:算力就是 AI 的石油,谁囤得多,谁就赢。

每家 AI 公司都在砸重金囤卡囤算力,怎么可能差我那点额度?!

在播客 Latent Space 的一期节目里,AI 基础设施公司 AMP 的创始人 Anjney Midha 说:「像 xAI 这样的前沿实验室,GPU 利用率可能不到 10%——这只是真正问题的冰山一角。」

我做了一次简单的换算。MFU(Model Flops Utilization,模型浮点运算利用率)是衡量 GPU 算力真正用于模型计算的指标。如果你花 5 亿美元买了一个 GPU 集群,MFU 只有 10%,意味着你实际获得的有效算力相当于只花了 5000 万美元。剩下 4.5 亿美元的算力,在空转。

说不通的地方在于,这些是全世界最聪明的工程团队,花着全世界最昂贵的预算,建造全世界最先进的计算集群——然后让 90%的算力闲着。

这不是某家小公司的管理失误,这是一个结构性的行业秘密。

巨量采购,巨量浪费

让我把这个反差拆解得更具体一些。

Epoch AI 的分析师 Josh You 在一份被广泛引用的报告中写道:「前沿实验室尚未使用大部分 AI 算力。」他追踪了主要实验室的算力增长曲线,发现一个令人不安的模式——算力的采购速度远远超过了算力的消耗速度。大量计算资源处于「储备」或「闲置」状态,像是被囤积的战略物资,而非正在燃烧的燃料。

这不是前沿实验室独有的问题。

Fujitsu 在其 2024 年发布的《AI 基础设施状态报告》中引用了一组更刺眼的数据:超过 75%的企业在峰值负载下,GPU 利用率仍低于 70%。注意,这是「峰值」——也就是说,在最忙的时候,四分之三的企业连七成算力都用不满。

VentureBeat 基于类似数据做了一个更激进的判断:「95%的 AI 基础设施开支被浪费了。」

我试着把这些数字转化为具体的金钱损失。一块 H100 的云实例每小时收费 30 到 50 美元。假设一个企业运行着 20 块 GPU 的小型集群,利用率只有 20%——这在行业中已经算不错了——那么每年因闲置而浪费的计算成本约为 20 万美元。对于拥有数万块 GPU 的前沿实验室来说,这个数字要乘以几个数量级。

这让我想起了一段被遗忘的历史。

1990 年代末,美国电信行业经历了一场疯狂的光纤铺设热潮。WorldCom、Global Crossing、Level 3 等公司在地下埋设了数百万英里的光纤电缆,投入了超过千亿美元。但到了 2001 年泡沫破裂时,行业发现一个惊人的事实:铺设的光纤中,超过 95%是所谓的「暗光纤」(dark fiber)——从未被点亮,从未承载过任何数据。它们安静地躺在地下,像是埋葬了一个时代的雄心。

这和今天 AI 行业买了 GPU 却让它们空转,是不是同一个故事的不同版本?

但这里有一个关键的区别。暗光纤的问题主要是需求侧的——当时根本没有那么多数据需要传输。而 GPU 闲置的问题更复杂,因为算力需求明明就在那里。每家实验室都在抱怨算力不够用,每个研究者都在排队等 GPU。

供给和需求都存在,中间到底卡在了哪里?

GPU 65% 的时间在等待

我曾经天真地以为,GPU 利用率低是因为工作负载不够。后来我去读了一些基础设施层面的技术分析,才意识到问题完全不是这样。

GPU 不是一头只要喂食就会干活的野兽。它更像一位挑剔的米其林大厨——食材的品质、上菜的节奏、厨房的动线,任何一个环节出问题,它都会停下来等。

aixenergy 的一项研究揭示了一个令我吃惊的数字:在 AI 训练过程中,GPU 有 30%到 65%的时间处于闲置状态。不是因为没有任务分配给它,而是因为数据还没准备好。

这就是所谓的「数据饥饿」问题。

训练一个大模型需要海量数据,这些数据需要经过清洗、标注、分词、打包等一系列预处理步骤,然后从存储系统加载到 GPU 的显存中。GPU 的计算速度是以每秒万亿次浮点运算(TFLOPS)来衡量的,但存储系统的 IO 速度远远跟不上这个节奏。结果就像一条高速公路上,收费站的吞吐量决定了实际车流量——不管你把公路修到几十车道宽,收费站一次只能过两辆车,后面全在堵。

但故事还没完。我在 arXiv 上找到一篇关于 GPU 能耗的论文,它揭示了一个更隐蔽的问题:即使 GPU 进入了所谓的「深层空闲状态」(deep idle),它仍然在大量耗电。Epoch AI 的数据显示,GPU 数据中心的总功耗中,约 40%直接来自 GPU 本身。这意味着那些等待数据的 GPU 不仅没在干活,还在烧电,而且烧的是不小的量。

这就像一辆法拉利堵在早高峰的环路上:引擎空转,油在烧,但车没动。而你还在为这辆车支付每小时 50 美元的租金。

还有一个更微妙的陷阱。那篇 arXiv 论文指出,目前行业通用的监控指标「集群级 SM 利用率」,其实并不能有效反映真实能效。SM(Streaming Multiprocessor,流式多处理器)是 GPU 内部的计算单元。即便监控面板显示 SM 利用率看起来正常,实际上很多计算周期在做「假工作」——数据搬运、内存同步、等待通信,而非真正的模型计算。

这解释了一个我之前困惑的现象:为什么有些团队报告「GPU 利用率 70%」,但训练速度却远低于预期。因为那 70%里面,可能只有一半在做有效计算,剩下的在做后勤。峰值负载利用率就像公司的「最佳季度营收」——它是真的,但它不代表常态。用它来衡量效率,就像用你跑得最快的那一次百米成绩,来评估你的日常通勤速度。

当问题出在结构而非规模上时,堆量不仅不能解决问题,反而会让浪费等比放大。

当「用好算力」变成一门新学科

如果问题是结构性的,那解法也必须是结构性的。这正是 Anjney Midha 在那期播客中提出的核心命题。他用了一个词:「outputmaxxing」——产出最大化。

这个词初听像硅谷的又一个流行语,但 Midha 给出的基准线让我意识到,它指向的是一个严肃的工程问题。他说:「我认为目前最佳实践者的 MFU,大概在 60%到 70%之间。」

60%到 70%。这是全世界最顶尖的团队、最优化的代码、最精心调校的基础设施所能达到的上限。而行业均值连这个数字的零头都不到。

这个差距意味着什么?意味着对于大多数 AI 公司来说,如果能把利用率从 10%提升到 60%,等同于在不多花一分钱的情况下,把有效算力扩大了 6 倍。不需要抢购更多 GPU,不需要建更多数据中心,不需要和英伟达打价格战——只需要把已经买来的东西真正用起来。

这和云计算行业走过的一条几乎一模一样的路。2000 年代初期,企业的物理服务器平均利用率只有 10%到 15%。每台服务器运行一个应用,剩余的算力全部闲置。然后 VMware 带来了虚拟化技术,把多个虚拟机塞进同一台物理服务器里。再后来 Docker 带来了容器化,进一步压缩了资源开销。

到今天,云服务器的利用率普遍达到 60%到 70%。

从 10-15%到 60-70%。这个跃迁花了大约 15 年,催生了一个万亿美元的云计算产业,彻底改变了软件的构建和部署方式。AI 算力现在站在的位置,看起来就是 2005 年的服务器市场——知道问题在哪里,但系统性的解决方案还在酝酿中。

商业模式的变迁,正在加速这个转型。早期的 AI 基础设施市场流行「固定费用许可」和「捆绑 Token」模式——企业预付一大笔钱,买下一定量的算力配额,用不完也不退。这种模式天然鼓励浪费,因为边际成本为零,没有人有动力去优化利用率。

VentureBeat 的分析指出,随着行业逐渐转向按使用量计费,闲置基础设施的成本压力,正在从「被忽略的背景噪音」变成「生产阶段的紧急事项」。

当每一个空转的 GPU 周期,都直接对应着账单上的一个数字时,「产出最大化」就不再是一个技术理想,而是一个财务命令。

与此同时,环境成本也在倒逼效率革命。

Towards Data Science 的分析指出,多数 GPU 的闲置意味着全球 AI 计算的碳排放中,有相当一部分是「无效排放」——它们没有产出任何智能,只是把电变成了热。GPU 数据中心 40%的功耗来自 GPU 本身,而其中大量消耗在空转和深层空闲状态上。这不仅仅是钱的问题,更是资源和环境的问题。

Fujitsu 在 2024 年发布了一份技术白皮书,标题直截了当:「最大化 GPU 利用率」。DevZero、Prodia、Mirantis 等一批基础设施公司也纷纷发文探讨「为何 80%的 GPU 闲置」以及各自的优化策略。这种行业范围内的集体焦虑,本身就是一个信号——问题已经大到没人能继续假装看不见了。

人们忽略了一件重要的事,在 AI 竞赛的叙事中,「规模」一直是唯一的主角。谁拥有最多的 GPU、谁训练了最大的模型、谁花了最多的钱——这些是头条新闻的素材。但效率从来不是头条。没有人会写「某公司把 GPU 利用率从 15%提升到 50%」的新闻,尽管从实际产出来看,这可能比多买 10 万块 GPU 更有价值。

Midha 的「产出最大化」之所以值得认真对待,是因为它暗示了一个范式转移:

AI 竞赛的护城河正在从「谁能买到更多算力」转向「谁能从同样的算力中榨取更多智能」。前者是一场资本的消耗战,后者是一场工程的精密战。前者的上限取决于你的银行账户和英伟达的产能,后者的上限取决于你对计算物理学、分布式系统和数据工程的理解深度。

这不是一个渐进式的优化问题,也是一门新学科的诞生。

每一次基础设施革命似乎都遵循相同的剧本:先是疯狂建设,然后发现大部分产能在浪费,接着一批新的公司和技术出现,专门解决「如何用好已经建好的东西」。铁路时代如此,电力时代如此,互联网时代如此,云计算时代如此。AI 算力走到了这条弧线的拐点上。

但这一次有一个有意思的不同。之前每一次效率革命,优化的对象都是相对「笨」的资源——蒸汽、电力、带宽、服务器周期。而这一次,我们试图优化的资源本身,正在被用来创造某种形式的智能。当你把一块 GPU 从空转状态「唤醒」,让它真正参与模型训练时,你增加的不仅仅是利用率百分比——你增加的是这个世界上正在思考的硅基大脑的数量。

也许,AI 时代最重要的问题从来不是「我们能制造多少算力」,而是「我们已经拥有的算力中,有多少真正在思考」。


网站编辑: 郭靖
0

全部评论

—— 没有更多评论了 ——
—— 没有更多评论了 ——