主题:GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
具身智能爆发第三年,世界模型凝聚了哪些共识?作者丨张进 吴彤 梁丙鉴 刘欣 齐铖湧编辑丨林觉民 马晓宁13 日,第八届 GAIR 全球人工智能与机器人大会世界模型分论坛圆满成功。这场的演讲嘉宾是在世界模型领域,研究不同方向的五位青年学者,他们带来了五场围绕世界模型的精彩演讲,话题聚焦通用感知、三维技术、物理模型、世界模型、数字人重建。通过他们的演讲、我们得以窥见当下围绕着世界模型的研究是多么广泛与丰富。目前,世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,而这股潮流中,今天到场的几位嘉宾,用他们的智慧和力量给世界模型领域研究带来了不同的启发。浙江大学研究员彭思达:面向具身智能的通用空间感知技术在“世界模型”分论坛上,首位演讲者是浙江大学研究员彭思达。他是浙江大学软件学院“百人计划”研究员、博士生导师,研究方向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能的通用空间感知技术》,介绍了其团队近期在赋予机器人通用感知能力方面的多项工作。团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimation),即让机器人知道自己在空间中的位置;二是深度估计(Depth Estimation),使机器人了解场景中各物体与自身的距离;三是物体运动估计(Object Motion Estimation),让机器人感知世界的运动状态。这些底层空间感知技术有何作用?首先,它们能为机器人提供关键的决策信息。例如,无人机在空间中需要先知道自身位置、与场景目标的距离,才能实现基础避障;进而还需了解目标物体的运动情况,才能进行追踪。基于从场景中获取的三维空间信息,机器人的行为规划便能得到有力支持。其次,这些技术可用于生成训练数据。当前具身智能领域的一大难题是数据匮乏。以往有人尝试仿真或遥操获取数据,但遥操数据虽好却难以规模化扩展,而仿真技术目前仍与真实世界存在较大差距。彭思达提出,其实可将人类视作一种特殊形态的机器人——具备完整的身体结构与行为模式。若能发明一种数据采集设备,将人类日常行为完整记录下来,就相当于获取了机器人所需的行为数据,从而可用于训练人形机器人。这其中便涉及相机定位、深度估计与物体运动估计等技术。相机定位方面,最传统经典的方法是Colmap。该方法从图像中提取特征并进行两两匹配,再通过增量式运动恢复结构(SfM)得到相机位置。最终每张图像对应一个相机位置,并共同生成三维点云,形成经典的三维重建流程。然而,该流程目前面临的挑战在于图像匹配。团队发现,传统匹配方法在恶劣环境或视角差异较大的情况下效果不佳,会影响后续相机位姿估计的准确性。针对这一问题,彭思达所在实验室于2021年提出一种新方法:不再依赖传统匹配方式,而是直接使用Transformer大模型进行图像匹配。具体而言,将两张图像输入LoFTR模型以提取稠密特征,这些特征之间即使在弱纹理区域也能实现良好的匹配。深度估计是通用空间感知的关键组成部分。去年,彭思达团队在提升深度估计能力方面取得了三项进展,其中之一是“Pixel-Perfect-Depth”思路。具身智能需要深度估计,是因为准确的深度信息能提升机器人的决策性能。但现有方法普遍在物体边缘存在“飞点”问题:判别式模型(如Depth Anything)倾向于预测“折中值”以最小化损失,从而导致飞点;生成式模型(如Marigold)虽能从理论上建模多峰深度分布,但因使用VAE进行压缩,同样会产生飞点。团队从生成式模型出发,提出了 Pixel-Perfect-Depth 的解决思路:首先移除VAE,直接在像素空间进行优化,以避免VAE带来的信息损失。然而,没有VAE后模型需要更全局的视野,因此他们将语言特征整合到DiT模型中,发现这能显著增强模型对图像的整体理解能力。将人类行为数据转化为有效训练数据,是当前具身智能发展的关键。这需要获取深度信息、相机运动以及人类行为语义轨迹,而语义轨迹的获取又依赖于三维跟踪。此前已有方法使用时序匹配进行跟踪,例如Google的CoTracker:先初始化一组二维像素点,再利用Transformer迭代优化这些点的轨迹。但该方法仅在二维层面进行跟踪,容易因相邻区域的干扰而丢失目标,效果受限。彭思达团队的思路是将二维图像反投影至三维空间,做 3D tracking。具体做法是:输入图像并反投影至三维,获得三维特征后,在三维空间中初始化一条三维轨迹,再利用Transformer对该轨迹进行优化,从而实现更鲁棒的跟踪效果。该方法被命名为SpatialTracker。腾讯ARC Lab高级研究员胡文博:Towards 3D-aware Video World Models接下来,腾讯 ARC Lab 高级研究员胡文博带来了《迈向三维感知的视频世界模型》(Towards 3D-aware Video World Models )的演讲主题。胡文博表示,2024年初 Sora 震撼面世,虽然 3D 一致性不错,但对于做三维重建的工作者来说,视频细节里的垂直性和平整性还有空间。同时他意识到,Video diffusion 有潜力作为世界模型的一种表示,但视频仍处于 2D 空间,而我们的世界是 3D 的,因此如何实现 3D 感知的视频世界模型,非常值得探索。基于这样的观测,胡文博想要实现以 3D-aware 出发的 video world models。胡文博和团队决定在重建和生成两方面发力,重建方面,他展示了包括 2024 年开始陆续做的 video depth (DepthCrafter),从视频中估计点云以开展 4D 重建任务(GeometryCrafter),以及从单目视频中重建 motion 的“Holi4D”等工作。现场,胡文博并未过多展开从开放世界 2D 观测重建 3D 信息内容,而是把分享重点放在了以下部分。胡文博先分享了静态场景探索任务 ViewCrafter,借助重建能力生成 3D 点云,以其为条件控制 video diffusion。胡文博表示,这部分的探索生成的图像可更新点云实现更远探索,是早期世界模型的 memory 机制。这些把 3D 信息用于视频扩散,单图探索及点云更新应用,让现场观众们非常感兴趣。接下来,胡文博还展示了另一部分重要的 work:TrajectoryCrafter。这是胡文博在 ICCV 25 的 Oral 工作,其核心是让用户通过单目视频实现对背后 4D 世界的探索,延续 3D-aware 思路,将重建的 3D 信息和原始视频注入扩散过程,现场展示了指定相机 pose 的动态视频、子弹时间特效和复现 Dolly Zoom 特效,还原度非常高。不仅如此,胡还展示了 VerseCrafter 模型实现场景交互,在单图输入重建几何基础上,标注可移动物体数据标注流程,可以实现固定相机、只动物体、相机物体同动等交互结果,现在展示了生成的非常逼真的观测结果。最后,还展示了多个玩家或 agent 进行联机探索场景的 demo。胡文博的分享,展示了对世界模型交互方式的新思考,更是让大家的世界模型应用场景有了更充足的想象空间。西湖大学助理教授修宇亮:数字人重建,慢慢都会变成基础模型的微调任务围绕数字人建模,西湖大学助理教授,远兮实验室负责人修宇亮做了主题演讲《走出蜡像馆,交互新世界:开拓三维数字人研究新疆域》,分享了其关于高精度数字人重建的三项最新进展。由于兼具相机位姿变化和人物动作变化的特点,以日常图像作为三维重建任务素材时,长期以来面临着脏数据的困扰。传统解决方案为对图像进行文本编码、文字生成 3D 模型两步走。代价是效率,DreamBooth 和 SDS(Score Distillation Sampling)漫长的优化流程,导致单个数字人建模任务需要 3 至 4 个小时。远兮实验室的最新成果 UP2You,将上述时间从 4 小时压缩到了 1.5 分钟。其核心思想是将脏数据直接转化成对后续重建友好的多视角正交图片,在此基础上套用已有的多视角重
回帖(20):全部回帖(20)»