独家 | 3个月融3轮,2026“物理AI”黑马诞生

投中网   |   陈美
2026-03-27 10:36:30  分钟 12    阅读需  3434 字数 

3周内吸引了超60家投资机构密集对接。

当黄仁勋在GTC大会上引爆“物理AI”之后,2026年具身智能赛道便迎来从“理论验证”到“数据范式”的关键转折。

就在行业仍为数据瓶颈焦虑时,一家名为深度机智(DeepCybo)的公司悄然浮出水面。投中网独家获悉,作为北京中关村学院与中关村人工智能研究院孵化的首家具身智能企业,它凭借独特的“人类第一视角”技术路线,在短短3周内吸引了超60家投资机构密集对接。

2026年刚3个月,深度机智便推进了3轮融资相关工作,均超额募集,融资规模达数亿元级别,成为2026年来资本市场上备受青睐的具身智能赛道“硬核黑马”。据知情人士向投中网透露,目前参与的机构包括头部财务投资人、产业资本、重要国资等十余家,覆盖了多类资金方。

3月27日,在中关村论坛上,深度机智也正式发布新一代具身通用智能大模型——PhysBrain 1.0。这是国内首个采用“人类第一视角”数据、实现零真机轨迹预训练的全新范式模型。据悉,该模型已在多项国际权威评测中斩获SOTA(State-of-the-Art)成绩,对标行业顶尖水平。

何为“人类第一视角”?一场与英伟达的“零时差”共振

那么,何为“人类第一视角”?我向多位一线投资人打听到:原来这不仅是深度机智押注的技术方向,也是英伟达在GTC大会之后最新确认的战略方向。信息显示,面对仿真训练失真、通用场景泛化难、端到端模型“数据饥渴”等行业痛点,英伟达发布了Ego Scale具身智能数据框架,试图通过构建物理世界的数字基座来破局。

而深度机智的“敏锐之处”在于,当全球风向在2026年初转向时,他们已在这一赛道上奔跑了一年。

公司创始人陈凯回忆道:“早在2022年底ChatGPT爆发前,我们就笃定人工智能的终极形态必将是具身智能,而中国不能只造本体,更要有自己的‘大脑’。”然而,当他在2024年提出“基于人类第一视角数据构建基座模型”时,迎来的并非行业掌声,而是冷淡甚至是质疑。

“在当时,这条差异化技术路线并未受到认可,团队一度陷入技术方向孤立、不被外界看好的艰难时刻。”陈凯坦言。

但团队清楚,他们不是在赌一个概念,而是基于对人工智能终局的深刻洞察,选择了一条少有人走的道路。过程中,他们沿着“人类第一视角”的方向开展科研攻关,目标是“将AGI带入物理世界”。

这一愿景,与中关村两院AI核心与基础学部的核心战略不谋而合。在共同的信念下,中关村两院通过灵活的兼职管理办法与知识成果转化办法,以创新的“前店后厂”孵化模式,让多位研究员与博士生深入参与公司一线研发,推动项目真正走向“从0到1”的技术验证。

据深度机智介绍,截至目前,团队已搭建起自主可控的全链路数据处理管线,实现了从采集、处理、标注到训练的全流程自研。更令人惊喜的是,他们仅用不到3个月时间,就建立起约30万小时的人类真实数据,积累10万小时的人类第一视角高质量多模态真实数据。综合成本不及市场其他类型数据的十分之一,在数据密度与质量上构建了自身壁垒。

这份“超前”的积累与坚持,造就了深度机智与英伟达技术方向的“零时差共振”。以至于在2026年初,当英伟达发布Ego Scale框架、全球风向转向“人类第一视角”时,当绝大多数玩家还在摸索数据采集与标准时,深度机智已完成了从技术验证到模型落地的闭环。

中科大少年班“组队”创业,从“简单动作”到“会思考”

然而,低成本只是深度机智入局这场新技术路径的“入场券”,真正的护城河在于其模型展现出的惊人“智能涌现”。

在SimplerEnv基准测试中,一个经典的场景是,机器人抓取一根胡萝卜放入指定盘中。过往,传统方案里,机器人总是基于规则或仿真训练,机械、重复地抓取原有动作,无法灵活调整策略。

而深度机智的方案,则是依托于“人类第一视角”训练的PhysBrain 1.0,让机器人在从未专门学习过“抓胡萝卜”的情况下,仅凭空间理解与物理直觉,在夹爪接触到胡萝卜时,便学着人类的方式试探性地拨弄胡萝卜,试图把它扒拉进盘子里。

“这个动作,是没有包含在任何模型训练数据集里的。”深度机智团队阐释道。当夹爪发现盘子边缘过高、胡萝卜无法直接滚入时,模型会随即启动修正策略,转为直接夹取。该过程表明,机器人即便初次尝试受阻,它也能即时微调角度与力度,完成任务。

这种灵活的策略能力和自动纠错能力,意味着机器人不再机械地“模仿动作”,而是真正具备了“举一反三”的物理常识。可以说,这就是深度机智比英伟达早一年布局,所带来的“时间红利”。

然而,这份抢跑的“智能涌现”,不是一时的碰运气,而是一支硬核团队的厚积薄发。投中网了解到,深度机智的创始团队,由一支“顶级大模型专家 + 具身智能实战派”的王牌组合组成。

公司创始人陈凯,毕业于中科大少年班学院,拥有微软亚洲研究院(MSRA)联培博士背景,曾担任该院首席研究员。在人工智能领域深耕15年的他,主导过年调用量千亿次的文档智能系统,能将大规模工程化落地的经验带入具身智能领域,为PhysBrain基座模型奠定坚实的算法底座。

联合创始人、CEO张翼博,同样来自中科大少年班学院。物理系毕业的他,是一位典型的青年海归学者,其博士研究成果入选过中科院首页亮点。在底座模型构建中,张翼博创造性地将基础物理学的严谨思维引入神经网络,使得模型不再只依赖数据拟合,而是真正具备理解重力、摩擦力等物理规律的“常识”,这也是机器人能“举一反三”的关键。

此外,首席机器人专家何旭国的加入,也是该创业团队的亮点。作为世界机器人奥运会FGC(First Global Challenge)多届青少年国家队的总教练,何旭国曾带队在过去三届比赛中斩获两冠一季的优异成绩。在机器人本体的研发中,他将竞技级的运动控制经验转化为工程语言,主导设计了全尺寸拟人机器人Prime,攻克谐波力控、断电自主站立等硬件难题,补齐从“虚拟算法”到“真实本体”的最后一块拼图。

与此同时,在三人的带领下,团队还汇聚了来自微软亚洲研究院(MSRA)、北京中关村学院,以及清华、北大、中科大、中科院、伯克利等全球顶尖学府的博士及核心骨干。他们共同打造了一支“Embodied AGI”(具身通用智能)的全栈“梦之队”,推动着具身智能从“实验室演示”加速走向“规模化落地”。

欲做中国版Generalist AI,不止于标注,更在于“读懂物理常识”

随着“人类第一视角”成为全球物理AI的核心赛道,深度机智的目标也随之升级:打造中国版的Generalist AI,甚至欲与其掰手腕。

在陈凯看来,中国要在具身智能的“大脑”领域实现弯道超车,核心在于打造适配本土产业的通用基座模型,而优质的标注数据就是燃料。

此前,Meta之所以以148亿美元收购Scale AI 49%的股份,正是看中了其将原始数据转化为可训练数据的标准化能力。深度机智也深知,数据标注是具身智能“大脑”落地的基石。而在“人类第一视角”这一技术范式转变下,年初已有多名大厂背景的高管下场创业,其中不乏前阿里副总裁、前理想汽车智能驾驶负责人,以及地平线前软件平台产品线总裁等。

但与大厂高管下场创业不同的是,深度机智依托中关村两院的人才“蓄水池”,组建了一支近30人的“博士军团”。这支核心团队由来自计算机、人工智能、机器人工程、精密制造等前沿领域的博士生组成,他们不仅参与辅助工作,还深度介入公司核心研发的全链路——从底层的数据采集与高维知识标注,到复杂的模型架构设计、硬件本体攻关,再到严苛的真机测试,处处可见博士们的身影。

从本质上说,这种“顶尖博士扎堆”研发团队配置,让深度机智从开跑之日起,就具备了最核心的底层“智力”支持,在最具挑战的数据标注维度上,实现“降维打击”。

相较于传统VLA路径专注的抓、拿、放、工具操作等“动作标记”,深度机智认为,其最大的特点在于,在动作标注的基础上,团队又进一步构建了更进阶的“知识标注”。简单来说,就是在采集人类第一视角数据后,团队不再单纯地关注手部运动轨迹,而是致力于挖掘操作背后隐藏的物理逻辑、场景认知与决策思维。

这种从“模仿轨迹”到“理解物理交互常识”的跨越,正是前述“胡萝卜测试”中智能涌现的根源——它让机器人在面对未知场景时,不再机械地复现固定轨迹,而是能像人类一样真正“理解物理常识”,从而具备对突发状况进行自主推理与修正的能力。

写到这里,我想我大概讲清楚了一个以“人类第一视角”为技术路线,构建的物理AI底座模型的逻辑。过去几年,我们见证了太多大模型在文本、图像领域的狂飙突进,但在物理世界,机器人依然显得“笨拙”。根本原因或许就在于,传统的仿真数据和第三人称视角数据,缺失了物理交互中最微妙的“物理常识理解”与“因果逻辑”。

如今,随着技术新范式的变革,具身智能“大脑”的技术奇点时刻终将到来。至于融资信息,团队嘴严得很,仅表示目前接触的机构很多,暂不方便对外披露。他们希望现阶段把更多精力放在更大规模数据集的建设和基座模型技术突破上。但是,据知情人士向投中网透露,目前参与的机构包括头部财务投资人、产业资本、重要国资等十余家,覆盖了多类资金方。

网站编辑: 郭靖
本文为投中网原创文章,转载或内容合作请点击转载说明,违规转载法律必究
0

全部评论

—— 没有更多评论了 ——
—— 没有更多评论了 ——