对话酷哇廖文龙:把“世界模型”装进城市,跑通万亿规模的RoboCity新赛道

投中网   |   簪竹
2026-02-07 10:29:59  分钟 15    阅读需  4358 字数 

50亿订单背后的 Physical AI 进化论。

三年前,人们围绕AI的争论还聚焦在“会不会取代人类”的老套话题上;如今,问题的焦点已转移:AI该如何真正解决问题,产生真金白银的生产力?

换句话说,整个AI赛道的叙事逻辑已经从卷参数、卷算力,更多的转向了卷落地、卷应用。正因如此,资本不再青睐宏大叙事,而是开始关注最朴素的可交付产品和稳定可衡量的收益。

在众多场景之中,复杂的城市街头,是Physical AI(物理AI)最严苛的生产力考场。

然而,在如今大家都在大谈特谈Physical AI概念的阶段,通用机器人与自动驾驶企业酷哇科技(Coowa)却已经在城市场景跑出了自己的AI落地速度。

近日,酷哇正式披露最新经营进展:公司订单储备金额已超50亿元。

这一里程碑式的数据背后,是酷哇科技商业化版图的爆发式增长。近期,酷哇连续与多家大型国央企及头部城市服务集团达成深度战略合作,并成功在新加坡、阿布扎比等海外关键市场实现规模化商业落地。

公开数据显示,2025年无人环卫需求突破74亿元/年,相较2023年提升了约4倍,千万元以上无人环卫项目中规模化使用比例(扣除试点订单,即单项目至少有10台车以上投入的订单)在2025年达到30%,这表明市场对城市智能机器人的需求已正式从“试点尝鲜”转为“刚需认可”。

市占率持续领先:在单项目投入10台以上的规模化订单中,酷哇市场占有率约80%,交付能力居市场最高水平。

长期价值认可:2025年客单价较2022年增幅达106%,单客户年均付费金额的大幅提升,充分印证了客户对酷哇长期价值的深度认可。

截至目前,酷哇是行业内唯一一家同时进驻北京、上海、广州、深圳四个超一线城市常态化开展城服业务的机器人企业,公司一线城市业务占比从2022年的不足2%提升至2025年的25%。这种在一线城市复杂长尾场景下的高密度覆盖,不仅验证了酷哇产品的极高适应性,更确立了其在城市服务领域的绝对领先地位。

2222384109db8666477e3d9e55268e214033.jpg

“商业化的成功伴随着机器人的大规模投放,而大规模投放能构建数据闭环。有了海量数据才能迭代 AI 能力,进而反向推动商业落地的深入。这是一种相辅相成的双轮驱动策略。”酷哇CTO廖文龙对投中网表示。

回望过去,这是酷哇成立的第十一年。一路走来,酷哇是如何在具身落地难的背景下,趟出了一条可复制路径,并真正把 AI 变成了城市生产力?这十余年间,支撑酷哇的技术护城河又经历了怎样的迭代?

带着这些疑问,投中网与酷哇创始人兼首席技术官廖文龙博士进行了一场深度对话。

从“智能单品”到“城市新基建”

投中网:早年酷哇探索过Robotaxi、安防、物流、港口等领域,最终确定了智慧城市管家、智慧出行和智慧物业这三个方向。当时是基于怎样的背景做出的决定?

廖文龙:2015 年成立之初,我们名为“酷哇机器人”,初心就是做能够融入人类生活、理解人类意图并据此决策的通用的 AI 机器人。

早期我们在很多场景都做过尝试,但当时 AI 还停留在纯 CV(计算机视觉)检测阶段,解决的问题有限,缺乏足够的生产力价值。

2016-2017 年后,我们逐渐聚焦到更具生产力价值的城市服务机器人。虽然场景变了,但技术路线是一脉相承的。

2020年Transformer大规模普及到2022年ChatGPT爆发后,我们将模型做大,整合移动能力到作业操作能力,全面转向端到端(End-to-End)架构,认知的升级过程中,我们也更加坚定了通用AI机器人的初心。

投中网:关于融资历程,早期投资人看重的是团队综合实力还是产品模式?

廖文龙:对于早期项目,投资人本质上是在投团队。当时他们未必觉得我们的早期产品完全靠谱,但更看好我们要做的方向和核心技术团队。

投中网:从做单品转型到现在的城市服务机器人,内部有过争议吗?

廖文龙:技术团队内部争议不大,因为底层的 AI Model、SLAM 等技术栈是通用的。

最大的挑战出现在2019年左右,我们决定全栈自研整车并推行 MaaS(Mobility-as-a-Service)模式。这意味着我们需要为最终交付结果兜底,极大地拉长了技术栈和研发投入,对 AI 的泛化能力提出了巨大挑战。这是酷哇历史上最关键的一次战略抉择——从一家“卖技术”的公司,变成一家“卖服务”的公司。

投中网:为什么决定做全栈自研?是受成本压力影响吗?

廖文龙:不是成本,核心是落地能力和生产力价值。此前我们与产业龙头合作,发现改装车的落地存在诸多问题。我们做 MaaS 的逻辑是“以终为始”:客户不关心高精地图是否更新、自动驾驶怎么做的,他们只关心生产效率和降本增效。如果我们不能全栈兜住技术的底,产品就不成立。

规模爆发背后的“三层护城河”

投中网:2022 年新一轮 AI 爆发(大模型)对酷哇产生了哪些影响?

廖文龙:最大的影响是确认了Scaling Law(尺度定律)。实操层面,我们开始用更大的模型、更多的数据和更强的算力,去支持一个更统一的范式(端到端),解决移动和作业的所有智能问题,而不再是像过去那样堆砌小模型和规则。

投中网:酷哇目前的护城河是什么?

廖文龙:在 Physical AGI(通用人工智能)出现前,我们的护城河有三点:

1. 独家的数据闭环:我们拥有海量、高质量的非结构化场景数据(辅道、人行道、商业街)。这与主机厂的数据分布(主干道、高速)完全不同,是训练城市通用机器人的稀缺资源。

2. 工业级的 AI Infra:我们自建了从数据清洗、自动化标注、分布式训练到模型验证的完整工具链,支持海量数据驱动的模型高速迭代。

3. 效率与安全平衡的端到端算法:采用了更大算力、更大模型支持移动和操作,同时通过小模型或安全准则有效约束了 OOD(分布外)场景下的幻觉风险。

投中网:酷哇的双流架构(移动+操作)有什么具体案例?

廖文龙:早期我们是将移动和操作解耦的,但性能有差距,现在是用One Model(统一模型)覆盖。因为驾驶过程往往伴随着作业操作。例如,看到非行驶路径上的垃圾,需要变道去清理,这其中“清理”和“行驶”是强耦合的。具体做法是:先学习一个泛化性很强(Diversity)的驾驶策略,再通过后训练(Post-training)强化对齐清扫、冲洗等作业价值(Value Alignment)。

投中网:这套通用的系统如何适配城市治理的多个场景?

廖文龙:面对开放且长尾场景不可穷举的城市环境,单一规则已失效。我们基于人类认知机理,构建了一套集“System 1 (直觉响应) + System 2 (逻辑推理)”于一体的Coowa WAM 2.0 双核驱动架构:

第一层是 System 1“直觉行动系统”:这是机器人的“快思考”中枢。它不依赖耗时的逻辑搜索,而是利用 AIGC 技术在潜空间(Latent Space)中进行反事实推演——即在行动前并在大脑中完成亿万次虚拟试错。这赋予了机器人“直觉”,使其能快速预判物理后果。基于此,我们衍生出了 Drive AI(全场景移动)和 Work AI(VLA协同作业)两大引擎,让机器人在人车混流或复杂作业中,实现毫秒级的实时响应和“类人”的平滑操作。

第二层是 System 2“UrbanVLM 宏观约束”(基于视觉语言大模型):这是机器人的“慢思考”逻辑层,负责为直觉系统提供语义围栏。我们部署了云端大模型(32B)负责全局任务编排,能读懂复杂的自然语言指令;同时在端侧部署小模型(3B)负责毫秒级的风险识别。举个例子,当它识别出前方是“突然出现的行人”时,会根据常识强制约束底层的直觉策略,第一时间触发礼让行为。

投中网:目前 VLM 的能力边界在哪里?还需要人机协作吗?

廖文龙:VLM 仍存在上下文长度限制(导致决策未考虑周全)和视觉模态的 OOD(分布外)问题。人机协作主要在两个维度:一个是物理维护:如擦拭摄像头污渍、更换磨损的刷盘;再一个是极端场景脱困:如在狭窄辅道被前后堵死(Freeze),机器人可能不敢激进倒车。此时采用分层机制:先问本地模型 -> 再问云端大模型(思维链推理) -> 最后远程请求人类给策略或接管。

投中网:AI 时代的核心竞争力是什么?

廖文龙:两个核心:AI Infra(AI 基础设施)和人才密度。海量数据中大部分是无效的,需要自动化流水线完成数据挖掘、自动标注、增量训练和闭环仿真验证。这套 Infra 的迭代周期越快,竞争力越强。模型及工程本身很多时候还是需要一些奇思妙想,高人才密度才有可能在困难中找到可行路径的 proposal。

WAM_P01.jpg

城市通用AI的定义者

投中网:酷哇是如何做到在多个城市迅速落地的?

廖文龙:这是一个逐步攻克的过程。我们从辅道开始,扩展到机动车道,最后攻克了人行道和步行街等非结构化场景,实现了全场景覆盖。城市管家服务的人力缺口主要集中在辅道和人行道,而非机动车道。大约在2022年后,随着新一代硬件和全场景能力的成熟,我们取得了一个爆发式增长。

投中网:商业模式上,酷哇更倾向于卖服务而非卖设备?

廖文龙:早期我们也试过卖自动驾驶套件,但下游客户无法解决诸如高精地图更新、软硬件标定等技术问题,模式跑不通。最终回归客户本质需求:更低成本、更高质量地完成生产力。所以定义为卖服务(MaaS)更符合商业逻辑。

投中网:目前是否实现了低于人工成本的盈亏平衡?

廖文龙:是的,成本已经低于人工。门槛不在订单数,而在于部署成本。传统部署需要堆人去维护地图、理解环境,成本居高不下。而我们通过UrbanVLM理解市政体系,采用端到端开箱即用,显著降低了单体机器人的部署边际成本。这是我们能实现EBITDA回正的核心原因。

投中网:海外市场战略如何?

廖文龙:海外市场没有本质差异,主要是合规性问题。北美市场城市服务跟国内有一些国情上的差异,而亚洲市场形态与国内相似,是我们发力的重点。

投中网:酷哇的智慧城市管家业务这几年增长不错,但天花板是不是就在这了?

廖文龙:这只是我们业务范围的其中之一,我们从不把自己定义为单一产品或单一场景,从Day 1开始我们的目标始终是“构建通用的物理智能”,World-Action Model是一个相对具象的模型表述。智慧管家服务之所以商业化进展迅速,是因为我们用这套通用模型降维打击了特定场景(如物业、出行、物流等),同时利用项目中的高频场景完成了数据的原始积累和AI Infra的磨练。

现在的酷哇,拥有行业唯一的“单周数据迭代”能力和全栈团队,这意味着我们拓展新业务的边际成本极低。城市服务是我们的基本盘,但我们的增长逻辑是基于通用底座的无限场景复制。

投中网:未来的市场空间有多大?

廖文龙:城市服务及相关衍生市场目前约4000-5000亿,非常分散。随着老龄化和机器人带来的数字化管理,市场将会有相当的增量。我们的目标是做城市通用AI机器人,覆盖城市生活中的出行、物业、物流、巡检及新零售等多个场景,这将是一个万亿级的新基建生意。

投中网:在产品形态和场景拓展上有哪些规划?

廖文龙:形态上,一定要有手臂(操作能力),但不一定是人形。重点是能操作手臂的AI Model。场景上在持续渗透的城市服务的同时,我们还是保持初心做通用的AI机器人,渗透更多的Service场景。

投中网:下一代通用AI机器人的核心突破在哪里?

廖文龙:核心更多还是AI Model。在AI Model的背后是数据积累、算法架构及训练策略。对于酷哇来说,一方面是数据的分布扩充,然后用表达能力、认知能力更强的模型去学习。

归根结底,还是回到前述的AI Infra和人才密度这两个核心要素上来。谁能以此构建起飞轮,谁就能定义城市AI的未来。

网站编辑: L
本文为投中网原创文章,转载或内容合作请点击转载说明,违规转载法律必究
0

全部评论

—— 没有更多评论了 ——
—— 没有更多评论了 ——