别人都在卷Harness，而Google 的沉默振聋发聩

硅星人pro | 周一笑

2026-04-15 13:00:12 分钟 18 阅读需 5331 字数

Google在做什么？

今年1月，Google Gemini API团队的Principal Engineer Jaana Dogan在X上发了一条帖子，迅速获得了数百万次浏览。

“我不是在开玩笑，这也不好笑。我们在Google从去年起就一直在尝试构建分布式agent编排系统，各种方案，团队内部意见不统一。我给Claude Code描述了这个问题，它在一个小时内生成了我们花了一年时间构建的东西。”

她后来补充说，生成的只是一个玩具版本，不是生产级代码。但她同时说了一句话，“我们不能一边要求人们100%发挥，一边让他们不断在冲突和争论中消耗。”

三个月过去了，这条帖子背后的问题变得更加尖锐。据开发者调查数据，Claude Code在专业开发者中拿下约41%的市场份额，年化收入约25亿美元，是AI编程工具领域有史以来增长最快的产品。OpenClaw两个月内从开源项目迅速走红为全球热议的agent平台，中国大厂飞书、钉钉、微信纷纷接入。“Agent Harness”成为AI行业最新、最热的关键词。

而过去这一周的密度更是惊人。Anthropic宣布年化收入run rate突破300亿美元（2025年底为90亿），同时发布了Claude Mythos Preview，一个比现有Opus更强的新层级前沿模型，以Project Glasswing的名义定向开放给Palo Alto Networks、Amazon、Apple等40家机构用于网络安全防御，消息发布当天引发美国软件股集体下跌。同一周还上线了Claude Managed Agents，为企业提供托管的agent基础设施，从沙盒到编排一站式解决。

Meta发布了Muse Spark，Alexandr Wang领导的Meta Superintelligence Labs的第一个模型，放弃了此前坚持的开源路线，转向闭源。OpenAI不久前刚完成1220亿美元融资，估值8520亿美元，Codex周活跃用户超过200万且仍在快速增长。

而Google，在这一切中几乎没有声音。

1、强模型，弱Harness

Ben Thompson在今年3月的文章中点出了Google的核心问题，Gemini 是一款强大的模型，但谷歌尚未为其推出有说服力的Harness。（Gemini is a strong model, but Google hasn't yet shipped a compelling Harness）。

所谓Harness，是围绕AI模型构建的编排和控制层，让模型不只是在聊天框里回答问题，而是能在真实场景中稳定地执行多步骤、跨应用的复杂任务。Thompson的判断是，agent时代的竞争关键已经从模型本身转移到了Harness。他用苹果的硬件-软件整合做类比，利润从模块化的、被商品化的部分流走，流向整合的、差异化的部分。

Anthropic的Claude Code和OpenAI的Codex建立了模型与Harness的紧密整合。Google没有。

Google的agent产品并不少。Jules是自动编程agent，Antigravity是Google以24亿美元从Windsurf挖来CEO Varun Mohan等核心人才后组建的agentic coding平台，Gemini Code Assist在IDE里有agent模式，协议层面有A2A和ADK等开发者框架。消费端还有Gemini Agent，能帮用户管理邮件、日历、执行多步骤任务，不过目前只对美国的Ultra用户开放，月费249.99美元。

但市场数据说明了一切。Antigravity的开发者采用率与Claude Code差距明显。不少用户选择在Antigravity内切换到Claude的模型来获得更好的编程效果。Composio的对比测试中，同一个任务Claude Code用了1小时17分钟自主完成，Gemini CLI用了2小时2分钟且需要人工干预，过程中“会陷入循环，反复尝试相同的方法”。

Hacker News上一个高赞帖子标题写着，Google在agentic CLI coding方面远远落后。How-To Geek的评测说，“我两个都大量使用过，根本不是一个量级的竞争。”

连Hassabis本人也在金融时报采访中承认，Claude Code“做了一些特别的东西”。

这个gap到底是主动选择还是被动落后？

Dogan的帖子给出了一个很难回避的答案。“各种方案、团队意见不统一”，这指向的不是战略取舍，而是组织执行力出了问题。Antigravity上线后留不住想用Gemini写代码的用户，Jules在公测阶段的数据（228万次访问、14万次代码改进）和Claude Code的增长曲线不在一个量级。这些不是选择不做能解释的，是做了但没做好。

皮查伊和Hassabis的公开发言试图把这呈现为一种优先级选择，强调Google的资源倾斜给了模型训练和TPU扩产，“先模型、再产品”。但当你自家的Principal Engineer公开说Claude Code一小时干完了团队一年的活，这个战略选择的说法就不那么有说服力了。

2、Gemini在打另一场仗

把Harness gap等同于“Google在AI上失败了”，是把问题简单化了。Harness gap是开发者工具这个特定赛道上的缺位，不是消费端的溃败。事实上，如果你只看消费者数据，Google的AI业务看起来相当健康。

Gemini的消费端数据依然强势。月活7.5亿，据Apptopia数据，在美国AI聊天应用的市场份额从14.7%增长到约25%，网页月访问量突破20亿次。

App Store排名上，Meta AI因Muse Spark发布冲进前十，Gemini仍然稳居第3，仅次于ChatGPT和Claude。

今年3月Google的产品更新节奏不慢。Gemini 3.1 Flash-Lite（Google主打高吞吐低成本的轻量模型）、Gemma 4开源模型（基于Gemini 3架构，Google在开源生态的一次重要押注）、Workspace全家桶AI深度整合、NotebookLM持续迭代、Gemini Live对话体验升级、Pixel手机上的Gemini App Actions开始支持跨应用操作。

只是这些更新的方向和行业热点大部分错开了。行业在讨论agent Harness和coding工具，Google在做搜索整合、Workspace生产力、手机助手。

Gemini API的定价整体低于Claude和GPT等闭源模型（具体随型号差异较大），且提供慷慨的免费额度，不过和DeepSeek等开源模型比，价格优势就不那么突出了。开发者社区形成了一种务实的分工，高价值项目用Claude Code，追求性价比用Gemini、开源模型。超过75%的企业组织已经在生产环境中使用多个AI供应商。

皮查伊在最近一次播客中说，搜索团队为每个子功能设定了毫秒级的延迟预算。Flash模型达到Pro的90%能力，速度快得多。他说这完全不是一个“零和博弈的时刻”。

Google优化的是十亿级用户的轻量体验，搜索、Gmail、YouTube、Android，每一毫秒都在考量范围内。这个方向在过去二十年一直是对的。

但agent时代的逻辑可能不同。Claude Code之所以引爆讨论，恰恰因为它是一个独立的产品，有自己的入口和体验。OpenClaw之所以爆发，是因为它构建了一个独立的平台。如果Harness层成为下一个平台级入口（就像搜索之于网页、App Store之于移动端），Google在这一层的缺位就不只是不参与某个细分市场的问题了。

3、庄家不需要站在台前

以上说的都是产品层面的事。但Google这家公司有一个其他AI公司不具备的特殊身份，它同时是AI行业最大的基础设施供应商之一。就在Anthropic发布Mythos、Meta推出Muse Spark的同一周，Google这边的大新闻不是某个产品发布，而是一份TPU算力合同。

Anthropic和Broadcom、Google在4月初正式确认了一份长期协议，从2027年起锁定约3.5GW下一代TPU算力，据Broadcom披露文件显示合同延续到2031年。此前Anthropic已经在执行另一份价值数百亿美元的合同，最多100万颗TPU，2026年上线超1GW算力。

两份合同叠加，Anthropic的核心算力在未来五六年相当程度上绑定在Google的基础设施上。Claude Code越成功，Anthropic需要的算力越多，Google Cloud收到的账单就越大。

OpenAI也在用TPU。2025年年中开始通过Google Cloud租用TPU降低推理成本，推理目前占OpenAI算力预算的一半以上。Meta在2026年2月放弃自研AI芯片Iris和Olympus，转投TPU。

SemiAnalysis指出了一个耐人寻味的现象，OpenAI甚至还没有大规模部署TPU，但仅仅是拥有“可能转向TPU”这个选项，就从Nvidia拿到了约30%的折扣，他们称之为“威胁折扣效应”。TPU的存在本身就在重塑AI算力市场的定价权。

SemiAnalysis对TPUv7（代号Ironwood）的评估是，性能与Nvidia Blackwell大致相当，但每有效FLOP的总成本低20%到50%。

当然，TPU的护城河也不是没有挑战。Anthropic同时在用TPU、Amazon Trainium和Nvidia GPU三条腿走路，OpenAI有自研芯片的长期计划，Amazon的Trainium在追赶。但至少在目前，TPU的客户名单还在变长，不是在变短。

皮查伊在播客中说他每周至少花一个小时管理TPU的项目分配，“按项目和团队了解他们所使用的计算单元”。CEO亲自管芯片，这件事本身就说明了在Google的优先级里，算力远比产品层的开发者心智更接近核心。

投资布局上，Google持有Anthropic约14%的股份、SpaceX的股份（SpaceX在2026年2月收购xAI后，Google间接持有xAI相关资产）。AI赛道的头部玩家，Google要么自己做，要么持股，要么卖算力。

Google在科学和前沿技术方向的储备也不应被忽略。Hassabis和Jumper凭AlphaFold2获得了2024年诺贝尔化学奖，Isomorphic Labs在做AI药物发现，Genie 3在探索交互式世界模型，机器人基础模型在和Boston Dynamics合作，Waymo已经在多个城市运营无人出租车。这些和当下agent热潮没有直接关系，但构成了Google独有的技术纵深。

4、不一样的AI路径

4月22日，Google Cloud Next在拉斯维加斯开幕（美西时间）。5月19-20日，Google I/O紧随其后。官方预告已经明确提到"agentic coding和最新Gemini模型更新"。接下来六周是Google集中亮牌的窗口。

但即便Google在这两个会上发布了有竞争力的agent产品，它走的也注定是一条和OpenAI、Anthropic不同的路。

过去这一周的行业动作说明了一件事，所有玩家都在积极调整AI战略。Anthropic用Claude Mythos把前沿模型能力打包成了面向安全行业的定向产品方案，这种把模型能力快速产品化到特定高价值场景的动作，是Google目前缺少的。Meta发布Muse Spark时放弃了坚持多年的开源路线，转向闭源，试图用30亿月活用户的分发优势追赶。OpenAI在推“AI超级应用”的概念，把ChatGPT、Codex和浏览能力统一成一个agent-first的入口。

每家公司都在抢位置，Google的相对沉默在这个背景下格外显眼。

综合皮查伊和Hassabis近期的公开发言，Google的AI战略逻辑比较清楚，不把AI当作一个独立的产品类别来经营，而是当作整个公司的加速器。皮查伊的原话是，“我们拥有这项通用技术，它可以加速所有业务的发展，搜索、YouTube、Cloud、Waymo。”Hassabis的KPI排序是先模型做到最好，然后尽快反映到产品中。

这和OpenAI、Anthropic的路径完全不同。OpenAI围绕ChatGPT建立了独立的消费者入口，然后向企业和开发者两端延伸。Anthropic围绕Claude Code建立了开发者工具壁垒，再通过API和企业服务变现。两家公司的共同点是都在做独立的AI产品品牌，争夺用户的直接注意力。

Google赌的是，长期来看模型会商品化，agent产品会反复迭代和替换，但算力基础设施和十亿级分发渠道（搜索、Android、YouTube、Workspace）不会轻易被替代。与其在产品层和一堆初创公司逐个厮杀，不如守住基础设施和分发，等产品层面的格局明朗了再出手也不迟。

这个赌注是否正确，取决于一个关键假设，Harness层不会成为一个锁定用户的平台级入口。如果agent只是工作流的一部分，用户会在Claude、Gemini、GPT之间灵活切换，那Google的“基础设施+分发”路径就是对的，不需要在Harness上赢。

但越来越多的迹象显示，agent正在演变成一个操作系统级别的界面。Claude Managed Agents已经在做这件事，Harness正在从产品概念变成基础设施。那Google就可能在拥有最好的模型和最强的芯片的情况下，依然错过这个时代最重要的产品窗口。这不是没有先例的。Google曾经在即时通讯、社交网络等领域拥有很强的技术基础，但在这些领域的产品竞争中并不总是赢家。

Gemini 3在模型层证明了Google不会缺席。TPU在基础设施层证明了Google无论如何都会赚钱。真正悬而未决的是第三层，agent Harness。Google Cloud Next和I/O或许会给出第一批线索。

网站编辑：小川

全部评论

—— 没有更多评论了 ——

别人都在卷Harness， 而Google 的沉默振聋发聩

Google在做什么？

全部评论

别人都在卷Harness，而Google 的沉默振聋发聩