投中网独家获悉,灵初智能已完成天使轮及Pre-A轮20亿元融资。
资方以“国家队”资本和产业资本为主。天使轮投资人包括国开金融、国中创投、央视融媒体产业投资基金,和某千亿上市公司旗下战投、长飞光纤旗下基金两大核心产业龙头资本。Pre-A 轮由上海国资徐汇资本等领投,部分地方国资及市场化基金跟投,多家老股东实现超额跟投。其中,领投方徐汇资本刚刚参与了阶跃星辰的B+轮超50亿融资。直投之外,徐汇资本还通过母基金布局机器人赛道,出资45亿元参与了超200亿规模的上海人工智能母基金。
本体,大脑,全栈,具身智能公司大体形成了这样的定位划分。灵初智能,是一家定位于“小全栈”的具身公司。之所以叫“小全栈”,是因为在研发上做了取舍,把重心放在构建以端到端VLA模型为核心的软件与数据采集工具链体系上。本轮融资也将投入到灵初智能在物流场景的规模化应用与大规模数据采集解决方案体系的构建中。
端到端VLA模型已是行业基操,今天重点来谈谈他们目前的业务重心——数据采集。
当年DataBricks和Snowflake的崛起,核心是靠搭建了适配互联网和移动互联网时代的数据基础设施。当产业进入机器人时代,机器人的数据采集与持续学习,同样需要一套完善的基础设施作为支撑。这点不难理解。更何况,大语言模型性能快速提升依托的是scaling law法则,但文本类数据可以从互联网上直接获得,具身模型所需的真实物理交互数据却很难收集。数据,成了具身智能发展的关键瓶颈。
于是,在当下这个阶段,数据采集成了一门抢手的生意。从技术路径来看,遥操作、仿真、UMI和视频学习,这四条路径已形成差异化竞争格局,在成本控制、数据精度、场景适配性等维度各有优劣。其中,去年起了声势的UMI模式,其独特性在于不再依赖机器人硬件或本体,通过人手持设备即可记录人类操作过程,实现了低成本采集数据。一个典型案例是,凭借27万小时的训练数据,海外公司Generalist宣称在机器人领域首次验证了scaling law。
UMI已发展出多个变体:FastUMI、MV-UMI(多视角)、DexUMI(灵巧手)等。国内类似UMI模式的公司也有几家,虽然看上去类似,但各家的基因还是不同,路线也有差异。最初的UMI模式是手持双指夹爪,灵初智能做的则是多模态数据手套,同样能以低成本的方式采集数据,和采集夹爪数据相比,通过手套采集的数据更容易在机器人上实现泛化。
之所以从这个方向切入,故事还得从头说起。
创始人兼CEO王启斌是个行业老兵,在机器人和消费电子行业拥有超过二十年的产品和商业化经验。联合创始人兼硬件负责人陈源培,则是一位00后学霸,在北京大学人工智能研究院读研时师从杨耀东教授,2023年在斯坦福访学期间还曾与师从李飞飞交流。同时团队里还有一批在具身和灵巧操作领域活跃的学术中坚力量。不少投资人最初押注这家企业,正是看好这个相对全面的人才配置。
2024年年中成立时,灵初智能切入的是灵巧手灵巧操作。为什么要选灵巧手灵巧操作呢?
陈源培告诉我,核心逻辑只有一个:人是双臂五指的形态,而具身智能的核心的是获取人类数据,就像自动驾驶和大语言模型一样,本质上都是从人类日常生活中提取数据,再用数据训练模型,具身智能也必然遵循这个规律。“只要人是双臂五指手,我们采集人类数据的差距就最小,数据的可用性也最高。”王启斌也相信,操作夹爪的天花板很低,做不了太复杂的事情,通用灵巧操作最终还是要靠灵巧手来实现。
不过那时,市场的主流是运控为主的四足机器狗。在灵初智能创始团队中,却有为数不多在那个时候做灵巧手操作算法研究的科学家。陈源培回忆,第一篇paper发出来的时候是2022年中,当时根本没人做灵巧手关注灵巧操作,直到2023年马斯克发布了Optimus之后,人形机器人火了。但2024年,Optimus的灵巧手也没有真正做出来。
“做手最难的是算法,而不是硬件。”王启斌认为。在自研灵巧手之前,他们采购了市面上的灵巧手,发现硬件能用,但手上的本体嵌入式算法做得并不好。
最初这家公司把精力投入到了算法研发上。灵初智能的模型训练,全程以offline到online的强化学习为核心,摒弃了模仿学习阶段。在陈源培看来,这带来两个核心优势:一是能大幅提高操作成功率,同时避免模型遗忘过往信息;二是能提升操作节拍,因为强化学习中,模型会为了快速获得奖励而自主加速,最终达到最优操作速度。
在2024年,整个行业还没有意识到灵巧操作(manipulation)需要如此庞大的数据量。直到去年年中UMI爆发,他们判断这件事一定会在具身智能领域重演,于是开始把数据提到了更高的优先级。为此,灵初智能自研了21自由度外骨骼手套,支持众包式采集,能以远低于传统遥操作的成本获取高质量真实数据。
今年,他们的规划是,一方面探索商业化落地场景,一方面大规模采集数据。王启斌认为,过去一年行业验证表明,单纯针对某个场景的商业化并不理想,将某个场景的产品做到高度泛化并实现规模化很难。究其原因,还是缺乏数据。因此,灵初智能将商业化的核心,放在了数据采集工具和数据平台的搭建上。
数据不足是行业共识,但王启斌在行业一线看到,真实数据需求的量级远超行业想象。“去年大家还在谈万小时级数据,今年我们提出100万真实小时起步。”在他看来,要实现无处不在的AGI,亿小时级数据是终极目标,从某个场景切入,百万小时级数据是最低门槛。如何实现数据的低成本、规模化采集,以及快速反哺模型迭代,是当下行业最大的难题。
在数据采集模式上,灵初智能跳出了行业主流的自建数采工厂的模式。王启斌认为,这种重资产模式存在三大问题:一是资产投入过重,二是数据无法跨环境复用,三是无法1:1还原真实生产生活环境,数据存在损耗。因此,灵初智能选择了分布式采集模式,核心载体是自主研发的数据手套。
“用户带着数据手套完成日常工作,就能实现数据采集,既能大幅降低硬件投入,采集到的人类数据还具有高度通用性,能迁移到不同机器人身上。”王启斌解释道,这种以人为中心(human-centric)的数据采集模式,本质上是打造通才型基础数据,后续只需通过少量后训练,就能适配不同机器人。而传统的机器人本体采集模式,只能实现专才型数据,很难跨机器人泛化。
在具身技术路线尚未收敛的背景下,数据采集看起来是个卖铲子的好生意。但也有投资人对其长期性存有疑虑,认为数据采集会不会只是阶段性的生意,因为最终机器人还是要靠自学习而非依赖外部数据实现迭代。
我把这个问题抛给王启斌。他的思考是:无论技术如何迭代,数据始终是飞轮中的关键。这个主线不变,但商业模式可能会不断演变。
比如,当机器人真正部署到日常生活中,开始产生真实场景的数据回流。这个时代将接近特斯拉的自动驾驶模式:通过大规模实际部署收集数据,形成"数据-模型-产品"的增强回路。更长远来看,他对机器人终局的设想是,不会局限于人形,而是各种形态的生物机器人共存,一如生物的多样性存在。届时,不同形态之下,数据如何进入系统、如何流动起来,并驱动模型迭代,这几个模块都会有变化。
回到落地的话题,灵初智能的数据手套目前已实现硬件落地,北京地区的100套设备正在部署,预计年前就能启动大规模数据采集。此前,公司已完成1万小时量级真实手套数据的验证,20256年的目标是突破100万小时量级。灵初智能还计划将分布式数据采集与Web3.0结合,用户可以购买或租赁数据手套,在家完成收拾桌子等简单操作,3分钟就能获得1-1.5美金的报酬,通过微支付模式,实现数据采集的规模化。
在商业场景选择上,他们的考量是:家庭场景因极端情况过多短期内难以闭环,传统工厂场景的数据价值又相对闭塞。灵初智能锚定的,是半结构化的物流及零售场景,利用其高频泛化需求的特点,展现具身智能在非标自动化领域的价值。
做过多年消费电子商业行业,王启斌能把各类场景拆出很细的颗粒度。物流及泛服务业在他的坐标系里,属于“中等精度、节拍适中、高泛化性”的场景。进一步,物流又能拆分为上百种具体场景,灵初首站选择的是服装仓储。这一环节贯通从仓库到门店再到C端的全链条,SKU极度丰富,近万件服装,颜色、包装、尺寸各异,天然提供海量多样性数据。“扫码”这一核心动作看似简单,但做好极难——既要保证99.9%以上的成功率,又要满足稳定的作业节拍。
根据投中嘉川CVSource数据,2025年具身智能融资规模高达329亿,2026年行业的关键词会是什么?有人认为是商业化和订单,有人认为是残酷的淘汰赛,但如果从数据资产的层面看,这个故事可能才刚刚开始。
在陈源培看来,大家正处于开始意识到要大规模收集数据的阶段,而基于这些大规模的数据积累,未来一定会有新的技术架构跑出来。王启斌则相信,具身的门票会比自动驾驶更多,从数据到应用,整个链条上的机会更为丰富,每一个小的细分领域都可能容纳下一家有足够体量的公司。
对话灵初智能创始人王启斌、联合创始人陈源培
投中网:模型层面,灵初的技术路线是分层VLA,这是一个阶段性的选择吗?之所以分层,是因为现阶段它的效果在要比统一的端到端大模型要好?
陈源培:站在整体视角看,它确实比不分层的效果好。原因很简单,现在数据量不够,分层的模块化设计,能让每个模块的数据利用效率更高。至于数据量够了之后,哪种形态更好,现在还说不准。
我一直跟别人说,现在谈模型架构没啥意义,因为全行业的数据量都完全不够。你看特斯拉,在训出FSD 12之前,不也一直在用if else写规则吗?那时候行业里也吵得厉害,争论到底是写规则好、端到端好,还是分层好,各种说法都有,但吵来吵去也没个结果。我觉得现在具身智能就处于这个阶段,大家都在准备大规模收集数据,等数据量上来了,肯定会有新的架构冒出来。
投中网:很多灵巧手公司在宣传的时候都会讲自己有多高的自由度,但我很好奇,堆叠太多自由度有必要吗?在你看来,现在能解决实际问题的灵巧手需要多少自由度是比较合理的?
陈源培:这个问题问得好,这其实也要看发展阶段。灵巧手本身是可以无限迭代的,但如果没有明确的应用场景,你再追求完美产品,也只是纸面指标的堆砌,没什么用。
这里面有个矛盾:自由度高了,稳定性就下降,成本也上去;定位精度提上来了,动态响应又会变差。所以现阶段,灵巧手的参数收敛只有一个方向,看落地。怎么确定多少自由度、各项参数怎么设?很简单,看哪个参数能落地,在落地过程中反推回来就行。
比如,先明确,当下能落地的场景需要多少自由度,先让这些场景持续产生价值,再反过来优化,梳理出理想的设计。我一直觉得,在商业场景不明确的情况下,单纯做硬件是件很困难的事,这也是我们特别注重商业闭环的原因。
说白了,灵巧手的参数、指标什么时候能收敛?只有当第一个能产生实际价值的商业场景跑通了,方向才会清晰,否则永远只是在做Demo,没什么实际意义。
投中网:灵初智能主要是做模型、灵巧手,以及数采工具,不太涉足硬件。一种观点是,只做大脑,不做机器人本体的话,反馈和调整会没有那么及时,这个问题会在我们的考虑之中吗?
陈源培:这个我们肯定考虑到了。所以我们在硬件上不是纯粹采购,而是会自己做设计。硬件要做成什么样、核心结构的参数怎么定、动作空间有多大、需要多少自由度,这些我们都会自己把控。只不过底层核心零部件的研发和代工,我们不做,那些是专业机械厂商的强项,他们能做得更好。
所以我们这种模式叫“小全栈”。既不是纯粹的软件公司,也不是那种什么都做的全栈公司,而是把硬件做到设计层面,这样就能保证反馈和调整的及时性。
投中网:不少具身企业选择的都是物流场景,灵初智能切入这个场景的思路跟其他家有什么不同吗?
王启斌:共识都是对投资人来说的,对行业里的人来说没有共识。选场景最可怕的是,大家只讲物流,不讲specifically。其实物流现在随随便便就能找出100种场景,那到底是物流里的哪个环节?是从大仓出货,还是配送?是配到门店级别,还是从门店配到ToC端?物流是有底层规律的,越往下游走,SKU就越多,拆零的需求也越大。比如说,你在门店级别,货物还是一整箱一整箱的,到了商超,就已经拆成一件一件的了。所以核心是,你在哪个环节,干哪个具体动作?
像我们第一个场景选的是衣服,为什么选衣服,因为衣服在仓配环节,既能配到门店,也能配到ToC端。仓里光衣服就有小一万件,各种款式、颜色,包装尺寸也不一样,就做扫码这么一个简单动作。这动作需求巨大,但要做好特别难,得做到99.9%以上的成功率,还得跟上作业节拍。
这些都得是对行业有极深理解才能选对的。我们做物流解决方案的团队很强,核心成员创业前都是做大型解决方案的,我自己对物流也特别了解。这就跟拍照、画油画一样,平庸的摄影师只会拍全景,而高手呢,同样一幅景色,他能精准选对角度,拍出不一样的质感。所以如果大家都只泛泛谈物流,在这种所谓的共识里,永远做不出好东西。必须在细分环节里看到非共识的细节,做产品、做场景,细节一定要够足。
投中网:我其实很想知道,这一波具身创业者他们构想中的未来世界蓝图,到底是什么样子的?您刚才也提到,未来可能是一些人机结合的场景,能展开讲一讲吗?
王启斌:现在所有人都说“机器替人”是主流,但我认为这只是一个过渡形态。我觉得真正理想的状态是,智能体(agent)最终会形成一种类似我们现在世界的形态——多种生物体混合共存。你想啊,我们现在讲的人类适合的环境,是我们人类自己构建的、为人类服务的,但除此之外还有自然界的各种形态。所以我认为,包括智能体在内的这些具备智能的载体,最终一定会有各种各样的存在形式。就像你现在能看到的,天上飞的无人机、地上跑的机器人,甚至海底游的设备,这都是很正常的。它们以后都会不断进化,变得越来越智能,最终和人类、和整个环境融合在一起,形成人机共生的状态。
全部评论