光速光合合伙人蔡伟至今还对第一次去具身智能公司“自变量机器人”测试DEMO的场景记忆犹新。
仅仅只是一个简单的指令:把杯子放到碟子上。听懂指令的机器人“发现”杯子被倒置了,它用仅有夹爪的机械臂把杯子先放正,然后准确地找到杯子把手的位置,最终拿起把手成功地放到碟子上,整个动作一气呵成。
“在看到机器人灵活性和智能程度涌现的那一刻其实自己鸡皮疙瘩都起来了,一下子就能真实感受到未来巨大的可能性和潜力。”蔡伟语带兴奋地回忆起当时的情景。
成立不满一年,自变量机器人就推出了目前最大参数规模的端到端通用具身智能操作大模型WALL-A。在WALL-A模型的赋能下,自变量机器人仅用二指夹爪,就能完成拉拉链、叠衣服、浇花等复杂操作,数分钟级别的任务成功率达到了95%以上。
2024年,光速光合领投了自变量机器人的Pre-A++轮融资。不久前自变量机器人宣布完成了数亿元Pre-A+++轮融资,以及由美团战投领投、美团龙珠跟投的数亿元A轮融资。自成立起不到一年半时间内,公司已完成7轮融资,累计融资金额超10亿元。
蔡伟表示:“我们投资自变量机器人,是看重其在具身智能领域的领先技术布局和差异化竞争力。公司自主研发的端到端具身通用大模型在泛化性和智能程度上在国内处于领先身位。我们相信,随着具身智能成为下一代机器人革命的核心,自变量机器人有望凭借技术通用性、团队执行力和产业资源整合能力,成为全球赛道的重要参与者。”
通往具身智能大模型的路径有无数条,自变量机器人创始人兼CEO王潜相信,“端到端的一体化模型架构”最终能通向罗马。
破题莫拉维克悖论:为什么机器人学不会“叠衣服”?
通用人形机器人仍是世界难题,过去学术界和工业界多次向通用机器人发起冲击,但最后都发现难度超乎预期。
上世纪80年代,人工智能领域提出了莫拉维克悖论,认为人类所独有的高阶智慧能力只需要非常少的计算能力,但是无意识的技能和直觉却需要极大的运算能力。例如,机器人能解微积分却打不开瓶盖,甚至直到2018年才实现自主抓握。
为了让机器人完成这些直觉的基础动作,机器人行业试过多种方法。包括预编程,为每一个任务写代码。以及分层架构的模型,也就是将模型分为基础层、数据层、模型层、平台层、应用层等多个层次,不同层次之间相互协作,共同支持大模型的训练、推理和应用。
王潜也是“通用具身智能”的挑战者之一,他在机器人和大模型领域都有很深的积累。
王潜2007年考入清华大学电子工程系,后获得生物医学工程系硕士学位。硕士期间,他发表论文,率先成为在神经网络中提出注意力(Attention)机制的研究学者之一,并与Google在该领域的首篇文章发表在同一会议。这些研究成果也成为后来Transformer架构中的关键。
硕士毕业后,王潜前往南加州大学读博,在全球顶级的机器人实验室,专注机器人学习、人机交互等相关领域的研究。
他很早就意识到,人形机器人要解决通用问题,最核心的是要解决AI问题。在研究中,王潜发现分层架构大模型很难适应复杂环境的动态变化。“分层架构天花板很低,越到后面越发现,如果越接近大小脑统一,模型能力的天花板越高。”
2016年,王潜开始研究端到端,时至今日,这种架构突破以往分层架构的限制,语言、视频以及传感器信号等输入后,直接输出机器人的速度、位姿、力矩等,减少了分层处理带来的噪声影响,有效提升泛化能力和系统灵活性。
后来,大(语言)模型的成果,为机器人的发展带来了全新视角,王潜决定自己创业。他先在美国看了一圈,美国的硬件人才基本都集中在湾区,在Apple、Meta、Tesla等大厂。“这些公司的待遇优厚,只要不裁员,人才主动出来的情况很少。”王潜把这种现象比喻为“金手铐”。在他看来,美国硬件人才大都被“金手铐”拷进了大公司,这也是美国硬件制造生态远不如中国的重要原因之一。
此外,中国在供应链上的优势可能领先了美国一个数量级。例如数据收集工作,中国的成本基本上是美国的1/10。效率叠加成本,中国的综合生态一定是全世界最好的。
他当即意识到,想要做成一家有竞争力的机器人企业,中国几乎是唯一的选择。“美国的优势在于软件层面,但机器人是一个软硬结合的产物,没有成熟的供应链环境是不可能做出来的。”于是,2023年王潜选择回国,在机器人供应链生态完整的深圳,创建了自变量机器人。
造出全球最大“机器人脑”机器人的端到端突围
端到端具身智能大模型是一条孤独的路。彼时,走这一路线的AI企业只有寥寥几家,专注机器人领域的更是少之又少。
几年前,王潜提出端到端思路的时候,一位有名的机器人教授曾当面否定了他的设想:“端到端很有意思,但可能永远只是个玩具,不会落地。”
在国内,鲜少有具身智能初创公司选择这一方案。而且,自变量还将所有的任务都在同一个模型中训练和实现操作。这种统一的机器人学习范式突破以往单一专有任务训练的模式,显著提高跨任务学习效率。
为此,王潜组建了一支在软件算法层面兼具“机器人 + 大模型”经验的团队,团队成员主要来自来自世界知名人工智能/机器人实验室及海内外顶级高校,研发人员占比超90%。
自变量机器人联合创始人兼CTO王昊,是大模型领域的专家。王昊是北京大学计算物理博士,在粤港澳大湾区数字经济研究院(IDEA研究院)期间担任封神榜大模型团队算法负责人,发布了国内首个多模态开源大模型“太乙”,首批百亿级大语言模型“燃灯”以及千亿级大语言模型“姜子牙”。
两人一致认为,机器人会是大模型能在物理世界真正落地的领域。王潜回国创业后,王昊也很快加入了团队。“正确的战略选择和团队优势,不夸张地说,为我们节省了大概半年的时间。”王潜说道。
蔡伟也给予了这对“黄金拍档”充分的肯定。
“王潜对机器人技术的判断很有前瞻性,在行业初步共识还未达成时,就意识到大模型的重要性,他的技术底子和触觉非常好,这是他多年行业学习和积累的结果。王昊很早就开始接触大模型,参与了中国首个亿级大模型和万亿级大模型的开发,知道大模型的上限和下限在哪里。这个组合对于未来在什么样的技术条件下能做什么样的产品有很清晰的判断。”他表示。
2024年4月,成立4个月的自变量机器人,发布了国内首个端到端具身智能底座大模型。经过数次迭代后,自变量机器人在同年10月发布了WALL-A模型。
自变量机器人通过双臂协作把线束卡进卡槽
基于大规模通用知识预训练与多任务学习机制,当前「WALL-A」模型在部分未见过的新任务场景中已展现出零样本泛化能力——广泛场景的零样本泛化是实现通用机器人的关键标志之一。
光速光合合伙人朱嘉直言第一次去公司看DEMO时就被WALL-A模型的能力惊到了。
他透露了两个有意思的细节。在没有预先告知公司的情况下,朱嘉在公司附近的超市买了十几个样式各异的玻璃瓶、马克杯甚至还有烧水壶,现场突击测试机器人的抓取能力。“有些形状的杯子它从来没见过,虽然抓得很踉跄,但最终还是成功了。”朱嘉笑言整个过程就像三岁小朋友在学习。
好不容易“闯关”成功,朱嘉又出了个下一个难题,把一件T恤揉成了一团球,让机器人现场抓取。他直言,揉完后乍一眼根本看不出是一件T恤,在这种情况下,大脑需要慢慢地一点点抽丝剥茧地去分析、分辨,最后慢慢找出衣服的结构,再将其叠好。“虽然一共花了10分钟,但前面8分钟都在探索,我觉得这个探索的过程非常有意义,说明它是在通过思考和尝试去解决一个问题,而不是在重复解决一个之前已被训练过的动作能力。”
“越接近人类直觉反应的动作难度越大,但通过他们的DEMO展示,我们看到机器人的二指夹爪可以抓取任意形状的瓶子、玻璃杯,可以顺畅地拉起拉链、叠好揉成一团的衣服,展现出极强的产品泛化能力。”朱嘉肯定道。
经过不足一年半的研发迭代,自变量机器人的模型已经和海外头部具身智能公司Physical Intelligence(PI)等,站在了同一水平线上,甚至在部分方面实现超越,比如在一些高级别的泛化性操作、操作复杂度等层面。
AI定义硬件,软硬一体同步迭代
蔡伟认为,“在具身智能这个大赛道里最终能脱颖而出,除了考验企业的大模型能力之外,是否有更好的算法,能收集大规模、低成本的真实数据非常重要。大模型的泛化能力是由数据采集能力来决定的,数据积累到一定程度,对泛化能力和智能程度的提升会产生很大价值。”
据悉,自变量机器人构建了以模型驱动的数据闭环体系。公司自主研发了数十个数据处理模型和多代数据采集设备,用于实现数据质量的自动化控制与数据采集效率的全面提升。
同时,自变量机器人也在同步自研机器人本体,形成“软硬一体”的闭环能力。公司自主研发并持续优化适配多模态大模型控制的机器人本体,更好地满足开放环境中的精细操作和稳定运行需求。目前,自变量的机器人本体已在多步骤复杂任务场景中落地应用。
自变量机器人近日在第六届深圳国际人工智能展会上现场展示自主制作刨冰
“我们最终的目标是直接面向终端消费者,让每个家庭都拥有自己的机器人保姆。”王潜说,不过,他估计人形机器人要在C端实现规模化突破性地落地,至少还要5-7年。
“我们今年将在多个功能性场景中做商业化落地,让机器人在开放性、随机性场景里自主完成各种复杂的操作。这看似一小步,实则是整个技术范式牵引产品范式转变的一大步。”王潜表示。
现阶段,包括WALL-A大模型在内的水平接近于语言模型GPT-2向GPT-3过渡同期的阶段。王潜判断,类GPT-3水平的具身智能大模型将在未来一到两年逐步出现。
从宇树科技到自变量机器人
深入行业研究,找对赛道,并在赛道中找到最领先的企业,从成功布局机器人四肢硬件的最强公司宇树科技,到投资了机器人的最强大脑自变量机器人,光速光合在机器人赛道的投资正慢慢浮出水面。
“我们看到当下无论是在国内还是海外,优秀的大学、科研院所、科技公司都在研究具身智能机器人行业,当他们需要硬件载体时,都无一例外地选择用宇树的机器狗及人形机器人,他们的产品竞争力不仅在中国市场,在全球都是非常领先的。”朱嘉回忆去年对宇树科技的投资时提到,“此外,我们还看到之前宇树的产品更多是以四足机器人的形态出现,但从去年开始,它的人形机器人产品,从第一代到第二代,快速迭代推向市场,公司的第二增长曲线开拓取得了优异的成绩,说明他们有很好地复制并快速做出成功产品的能力。”
对于自变量机器人的投资也是如此。
事实上,蔡伟一直在追踪具身智能行业的发展。他直言,通过前期语言大模型的积累,也在研究大模型在其他终端的应用,包括大模型对机器人可能会产生的影响。直到去年10月,Physical Intelligence发布了其首个通用机器人基础模型π0,用于开发各种机器人应用,它的泛化和智能程度到了初步可企及的状态时,他判断这可能是一个未来的主流技术路线。于是,开始有针对性地mapping行业内的优秀创业者及创业公司。
最终能找到自变量机器人,蔡伟笑言这是一个偶然的契机,一次理发的经历让他“撞到”了这个项目。他回忆当时在理发的间隙看到一篇介绍自变量机器人做端对端大模型的文章,发现这正是自己非常看好的一个路线。就这样,还没理完发,蔡伟已通过作者联系上了王潜。
在蔡伟看来,具身智能未来的发展必定是以一个系统的形式存在,既有软件,也有硬件,且有很高的进入门槛。“未来可能是有多家企业在不同的细分场景积累不同的认知,行业会是一个百花齐放的局面。”他说。
“我们看好具身智能在一个通用的大脑下会不断衍生出更多具体的应用,不论是To B还是To C,催生更多瞄准某些垂直领域应用的机器人产品。它可以借助现有机器人的大脑,结合行业的需求定制针对特定行业的产品。”朱嘉表示,“产业一旦做大的话在其产业链上,不仅上游的核心零部件,还有与产业相配套的一些产品、技术都会有长足的发展机会和投资价值。”
技术的持续突破,正撬动一个千亿美元级市场。高盛预测,到2035年人形机器人市场规模将达1540亿美元,而自变量软硬同步迭代的通用具身机器人,将抢滩养老护理、家庭服务等增量市场,夺得先机。
“这是一条广阔的赛道,我们走在最合适的路上,并且一定能走到路的尽头。”王潜说。这条路径的尽头,或许正是人形机器人走进千家万户的时代。
全部评论