朱啸虎:大家好,我们是最后的论坛,也是展望未来的论坛,我们主要讲世界模型,李飞飞和杨立昆讲世界模型才是真正通向AGI的路,另一方面确实世界模型现在看上去还比较遥远,今天主要想请嘉宾分享一下大家对世界模型怎么看,具体在哪些场景落地?我先问一下星连资本的张总,你觉得世界模型应该怎么在具体行业落地,前面讲的生数科技发布的世界模型,可能在哪些地方落地?
张鸣晨:我觉得非常重要,其实类比问模型,大家都在看世界模型,这块什么时候能类似scalinglaw出现,scaling law出现两个方面,一是数据墙的问题怎么解决,二是怎么支持所谓scalinglow出现这个事儿,今年我看到一个迹象,像刚才朱军老师在发布MoMAST里面也提到类似情况的出现。我觉得挺乐观的,应该很快能够摸到整个发展的轨迹,所以比较期待。
朱啸虎:第二个问题提给来自奥迪的IvoMuth先生,汽车正从代步工具向智能空间转型,您如何看待空间智能?它将如何改变未来的汽车座舱呢?
IvoMuth:对我们而言,空间智能对未来发展的影响有三大核心领域是此次讨论的关键,也是我们布局的重点。
首先,是我们的核心业务——汽车本身。越来越多的智能技术正在融入汽车,从高阶驾驶辅助系统到智能座舱,这些技术与整车智能体系深度融合,将是我们下一步最重要的战略方向,也是我们的核心任务。
其次,是我们的企业与组织。如你所知,大众汽车集团在全球拥有数十万名员工。作为大众集团的一部分,在我们企业中,人工智能与世界模型的应用,将帮助我们打通信息壁垒,把全公司的知识与能力转化为核心竞争力。
第三,也是最根本的,是我们的用户。我们创造的所有价值,最终都是为了服务用户。而理解用户、优化用户在每一次互动、每一个触点中的体验,正是智能体技术的重要应用场景之一。
朱啸虎:大模型要进入汽车领域最大的挑战是什么?是实时性还是数据安全问题?
IvoMuth:我认为,你提到的这三点确实都是挑战,需要认真应对。首先,成本是一个关键的议题。目前我们有云技术和边缘计算技术,很多AI应用需要跑在车辆的边缘端,这就要求我们在量产部署时,必须承载和驱动大量算力,并把这些能力集成到每一台行驶在路上的车里。
我们也在探索未来的技术路径,希望把更多工作负载迁移到云端,以此来降低成本,这也是一个重要的方向。
但比成本更关键的,是和你的问题直接相关的——数据、数据隐私与数据安全。对我们而言,与客户建立广泛的信任是一切的基础。安全是重中之重,客户信任需要很长时间来建立,但一次安全事件就足以摧毁它。因此,数据隐私、数据安全和数据保障,是我们在AI领域最核心的议题。
朱啸虎:武总,对于世界模型,流形空间是什么路线,和别人的差异是什么?
武伟:一个要警惕的事情就是现在世界模型的定义一直被扩大和模糊化,会造成以前定义元宇宙那个时候比较相似的事情。我们比较坚持的是要说清楚自己要做的世界模型是哪一类。我认为主要分为两类:第一类是在数字世界的世界模型,主要是为了构建一个更实时的交互界面。第二类是用于物理世界,成为一个可预测的机器人大脑。我们更多倾向于做第二类,做一个可实时进行预测的机器人的大脑。我认为这两者世界模型之间的foundation的能力其实并不一致,在数字世界内它其实要更多去迎合创作者的偏好,而不是真实的物理可遵循。而用于物理世界的话,它完全要去复刻真实的物理和它的机器人的操作,所以我们其实会更多倾向于第二类。
朱啸虎:你们目前训练数据是哪种方面采集?
武伟:这其实来自于我们的认知,它和现在有很多做自动驾驶的团队转型做具身,但是我们认为它和自动驾驶里的数据闭环现在还有很大的不同,自动驾驶它采集的时候更多的是实车的数据闭环,因为有很多车已经在路上跑了。机器人面临一个数据的冷启动的问题,以往很多公司会倾向于用类似自动驾驶的方式,我去先部署很多机器人,我真实环境进行遥操作,这种方式去采集数据。它的数据质量很高,但是存在一个scaling的速度的问题,对于世界模型的训练来说,用第一人称视角的数据做预训练,这也是世界模型比较可以快速去Scaling的一个feature。
朱啸虎:问一下清华的章教授,去年AI就说scaling的数据基本上碰到天花板了,scaling很难再往前推进了,大语言模型现在重新回归到了研究时代,你们怎么看待这个语言模型的瓶颈问题?今年算法上还会有突破吗?
章明星:我的确是感觉,可能去年的,应该说是前年的下半年好像大家一度对Scaling这个信心是有一定动摇的。但从整个业界当前的状况来讲,就感觉对scaling的坚信程度到达了一个新高度,因为我们现在发现就是这个Agent的能力主要差距在数据上,我们只要去补足更多场景下的数据及模型,自然的就可以去演化出对更多场景操作的能力。在这件事情上本质本身有一个非常强的坚信。而且更重要的是我们发现,像AI这样的场景下,已经不再是需要一个非常海量的数据,可能针对一些特殊的场景,重要的不是数据的质量,或者它相关的丰富程度,它需要各种围绕有不同的场景、不同的Case,但是每个Case可能只要几个或者几十个小规模就可以了。这也是让大家觉得未来有更大的可能性。但是为了更多的scaling,反而变成了卡在算力上,我们看到各家都在做价格上的创新,无论是我去提升DATA的属性,我在同等的数据上让它的效果更好,还是说我去降低我未来训出来的模型之后,未来我推理的成本,都是现在主要做架构上创新的很大的驱动力。
朱啸虎:你从学术角度上怎么看待世界模型几条技术的可能性?
章明星:从我的角度来看世界模型,从大的场面上来看,也有一些基于语言,因为本身语言也是对世界的一种建模的方法,所以很多的世界模型的路线是基于语言模型的能力,再迁移到更多的模态上。但是也有一些比如说JEPA这样的,他们可能需要更好的空间的表达,这个在某种意义上是世界观的体现,大家觉得语言足以建模所有的空间和物理感知的能力,还是说我们需要另外一种语言,就可能是某种vector表达的浅空间的语言,这是一方面,大家对语言足不足以建模物理世界,有一个理论上的分歧。
还有一个,刚才几位老师也提到,数学到底从哪里来的问题。我们到底是做数字模态的数字模型,我们用游戏的各种各样的数据做训练,还是我们做物理空间的,要达到物理上的遥测还是第一人称视角。我从横向比较来看,世界模型还是在普遍的阶段,未来物理空间的推理究竟属于什么模态,又该如何做,未来还有更多需要突破的地方。
朱啸虎:白总,你们投了很多智能空间的项目,你们觉得创业公司核心的壁垒是算法、数据还是工程化路径原理?在哪方面更容易突破一些?
白宗义:说句玩笑话,现在不讲世界模型,融资难度比较大,但是一讲世界模型估值都是几亿美金起。
从长期视角来看,世界模型跨本体、通用,肯定是终局的一条路。如果站在终局视角看世界模型,可能是走端到端而非分层的模型,数据方面,主要来自世界模型产生的,便宜,强coverage以及随着算力的提升,越来越高质量的生成数据。
但短期来看,这个挑战是非常极大的,当下的创业公司,大多会退而求其次,选择务实的路径:第一是去做分层模型;第二主要靠真机数采路线,但成本高,认为的coverage不够,常来看未必能走得通。
从耀途资本的角度来讲,我们过去几年的打法相对务实,今天讲通用世界模型的宏大叙事融到了大钱,但中短期看还是要在模型、数据等诸多方面做妥协,商业化层面,只能退而求其次,打特定场景,解决特定问题。与其这样,不如先聚焦把特定场景做透,尽量不去通用模型机器人本体、复杂任务场景。
我们之前重点看的两类赛道,都在2026年迎来商业化和资本化拐点,第一是自动驾驶,第二是偏工业的垂直场景。所以我们早期投了高速载人的元戎启行、低速载物的新石器无人车,还深度培育了做光伏电站安装,清洁机器人的丽天智能,最近又重仓一家具身+汽车零部件赛道的机器人公司-知来具身,能打透汽车零部件行业,完成3D飞拍检测、座舱座椅熨烫,轴承轮毂等金属件的去毛刺、打磨等诸多场景。以上场景对用户来说,投入产出比(ROI)能算得清楚,这类项目我们认为是极具投资价值的。
去年我们还孵化了一家做空中具身智能的公司,半年完成多轮融资,因为空中具身场景,不管是电力线巡检、探矿,还是地图建模,都不需要无人机完成太复杂的任务,只要把自主飞行这件事做到极致就够了。这个赛道也是我们过去一直重点布局的方向。
当然,从世界模型、通用人工智能的终局来看,头部公司目前融资的资金规模相对较大,技术有一定的先发优势,但从我们内部的判断来看,这个赛道,和大语言基础模型,GPU等赛道相比,所需要的资金投入门槛要低很多,大家都走在技术收敛的摸索阶段,优秀早期团队后续依然有很好的投资机会和价值。
对于已经落地、已经形成规模化场景的项目,我们会顺带布局它的上下游供应链,比如投了自动驾驶,我们会认为同赛道里的处理芯片、算法公司,都是很好的投资机会。整体来说,我们还是希望以务实主义的视角拆解赛道,做好长短期布局的结合。
朱啸虎:你觉得在垂直场景做有限泛化可行,通用场景做完全泛化是不可能。你怎么看待杨立昆40亿美金估值融到这么多钱?
白宗义:顶级团队在资本市场的号召力非常正常的,VC本质还是投人的逻辑,只不过这波具身创业公司的数量远超过当年的自动驾驶创业团队。但从中短期的角度来讲,回到上述的逻辑,模型,数据等都不明显收敛,整个行业都在快速进化,但离通用智能还有非常久的时间去验证。
回归到我刚才的观点,过去几年我们对讲通用具身智能赛道,相对来说偏保守、偏谨慎,所以布局没有那么激进。通用具身的长期终局,和当下能落地的商业化场景之间,有巨大的鸿沟。但这个差距背后,它又不像大语言基础模型那样,有极高的资金门槛,未来还会诞生很多新的投资机会,所以我们不妨先保持观察,再对优质团队进行重仓布局。
朱啸虎:即使假设有足够的真机素材数据,今天的算法能够收敛吗?
白宗义:足够的真机数采数据当然有效,但不是现实,在座的诸位是专家,我对算法模型的认知可能不深,我认为行业都在尝试,大厂可能偏端到端,但很多公司在用分层结构。之前记得有个例子,出差前跟家里的通用机器人说,帮我把出差的衣服叠好、收拾好。它首先要知道我去哪里出差,是去哈尔滨还是新加坡;其次要看我的日程,知道我出差几天,该给我带多少衣服——这些偏reasoning层面的能力,速度会比较慢,但一旦它明确了要带什么衣服、该怎么叠,这方面决策需要很快。整个行业都在快速进化,但从算法层面,离通用智能还有非常久的时间去验证。
朱啸虎:这个问题和破壳机器人的许总也是有关联,你们觉得家庭机器人怎么落地?怎么普及到家庭里面去?
许华哲:在预训练的部分还是需要第一人称的视频做预训练。大量机器人采集到的用夹爪的操作视频,包括各种各样的数据,这些数据都要死掉。这个机器人最后要干什么还不知道,最多是放到预训练里面,有更多的数据,但是那个数据不起量。在这种情况下,我们就不要采这些数据,反过来如果我们认真的想解决家里的场景,我们应该先想好在家里干什么,在家里定义好做什么、不做什么以后,反向迭代我们的系统,我觉得这套系统是最宝贵的。包括硬件、运控,以及如何确保机器人在家里至少能完成这些任务,只要能够数据起量,这些任务一定能泛化,一定能解决,就是怎么定义好这些任务对于我们来说是最重要的。
有人说你在一百个家采了,没有办法泛化到一万个家,那个部分靠人,很多数据会聚在一起,我倾向于预训练提供真正意义上的广泛泛化,依赖视频数据。在家里,破壳机器人,他就是这样的手,也许不是21个自由度,但是能做这10件事,把这10件事做得特别好,我就把把10件事做得哪都能泛化,10件事之外,你等着我们给你升级。真正意义上的完全泛化,在特别短期内是没有办法实现的。所以定义好产品边界。
朱啸虎:比如说今年你会聚焦在哪个产品上?
许华哲:我们在家里也做了拆解,物体传递、收纳、清洁、做饭、老人小孩的护理,难度是层层递进的,我们一定不做的是做饭,做饭我们会做小样,但是不会让它做饭,老人小孩跟人体接触部分我们不会做,跟老人小孩接触部分我们不会做。尤其是家内物体传递,到家了把衣服往沙发上一扔,它能不能帮我把衣服挂到衣柜里面去,帮小孩捡玩具,这些事情都是可以做的。当我们定义好了究竟要做哪些事情的时候,我们有足够的决心把这些任务采集,一定能解决的。
朱啸虎:本体有哪些?
许华哲:我们自己造本体,到底是垂直还是水平,我们看下来还是垂直的机会要大一点,因为水平的话,如果我们只做智能的这一层,在本题上面这个系统别人没有办法跟着我们要求去迭代。比如说末端我们的手要做哪些事情,我们的手要相应迭代,指尖是圆的还是方的。没有办法一个上市公司说我就要一个圆的手,你帮我做一个圆的手。
朱啸虎:让每一位嘉宾都总结一句话:今年最大的技术突破可能会是什么?
武伟:世界模型这儿今年有两个技术可以关注,第一个怎么把manipulation的交互能力在世界模型里做到实时。第二,怎么做世界模型的后训练,特别是RL的后训练。因为之前的经验是一个AI系统只有端到端并且可以闭环反馈的时候,才可以扩展。这两个事情都是世界模型今年需要突破的,但是不一定在今年就能突破。
许华哲:一个是规模化的强化学习是我比较关注的,普遍的观点认为强化学习会针对一个任务,对它进行过拟合化,做得很好。有没有可能我们让强化学习扩展到一百、一千、一万台机器人上去做,让它不损失成功率情况下达到像人一样的速度。第二,在线学习,在件事在大模型已经是一个比较广泛讨论的事情,但是在具身大家讨论还太少了,怎么样让它在部署后还能针对一些奇奇怪怪的任务快速的学习到那件事,比如说大模型的时候他们会用LORA,用Memory很多在线的学习方式,但是在具身里面研究怎么样的在线学习,可以使它部署后还能快速的学习到新的任务,这是我们比较关注的新的进展。
张鸣晨:我比较关注,看看产业里面能不能有公司今年把具身的模型、参数推到五倍或者十倍以上的大小,因为大了之后,你就能够把具身这一块的预运用和扩展规律,看能否将它推上来。
章明星:从我的角度还是更希望类似Genie这样一个可以动态形成一个世界在里面畅游这样一个模型,今年会不会有一个更大的拓展。因为其他的如果依赖机器人,可能很难一下普及到很多人的手里,这个模型如果有很大的突破,可能对整个事情的公众的普及度也会有一个很大的跨越。
白宗义:今年落地最明确的,就是自动驾驶和工业场景。如果说具身智能时代的新机会,我们比较看好末梢物流赛道。
我们投了新石器无人车,无人车先把货运到社区的接驳点,而从接驳点把货送到用户家里的这段场景,对模型泛化能力的要求相对可控。
IvoMuth:关于空间智能与世界模型,我认为从整体发展方向来看,未来最核心的变化在提升驾驶安全之外,还会体现在情境感知与乘坐舒适两个层面。过去,汽车的功能是按不同领域来划分的,比如动力总成、座舱、舒适系统等等。而未来,它将以「情境感知下的舒适体验」为核心来构建。而座舱内的人工智能模型,将可以通过情境感知去预判用户的需求——它能主动判断并保障行车安全,也能精准捕捉用户的预期,提前为其提供所需的服务。
全部评论