首页| 论坛| 搜索| 消息
主题:GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
爱我中华发表于 2025-12-15 10:31
建算法,实现提效。相较于传统方案,UP2You 最大的优势是,其重建质量可以随输入图片数量的增加而稳定变好,理论上可以恢复出更好的几何结构和纹理。由此日常图像作为脏数据的弊端得以被规避,数据量的优势同时被放大。“多多益善”,修宇亮教授总结,“无论图片有多脏,这个方案只要保证图片源源不断。”修宇亮教授分享的第二项工作名为 ETCH,旨在根据高精度穿衣人体模型,得到解剖学上正确的内部人体结构。由于此前的尝试将最外层服装视为人体皮肤,导致建模结果普遍偏胖。而 ETCH 通过向量,定义了衣服和皮肤之间的厚度关系,从而建模了更准确的内部人体结构。在今年的 ICCV 上,ETCH 获评 Highlight Paper。值得注意的是,ETCH 方案首先将穿衣人体模型采样为点云,每个点指向内部人体的一个向量。尽管衣服存在非刚体形变,但修宇亮表示,在此类任务中,不完美的旋转等变性仍可以大量减少训练所需数据。这也是ETCH工作的创新点之一,它或为首个通过向量定义衣服和人体之间关系的尝试。最后一项工作名为 Human3R,旨在实现人物及场景的实时动态呈现。“你很难只从动作就看懂人在做什么”,修宇亮教授解释,“但如果把场景也给到你,语义就相对清晰。”据介绍,Human3R在同时实现场景重建和人体状态预测、追踪的基础上,可以做到实时 15 FPS,8GB 显存占用。这意味着仅需一张商用 GPU,即可实现 SOTA 级性能。为了实现这一点,Human3R 保留了 CUT3R 的 3D 重建 backbone,以保留其对场景的几何重建能力,同时新增了一条分支,用于从场景中显式提取人体点云,并进一步估计该点云所对应的人体姿态。同时,Human3R 还借鉴了 VPT(Visual-Prompt Tuning)策略,以实现高效微调。展望未来,修宇亮教授最后分享了自身对于数字人技术的观察。更强大的通用 3D 重建模型正在让越来越多数字人重建任务迎刃而解,人体姿态重建,只需要在具有场景感知能力的视觉基础模型上进行微调。“数字人的重建任务,慢慢都会变成基础模型的微调任务。”修宇亮教授指出。中山大学计算机学院青年研究员,拓元智慧首席科学家王广润博士:创新基础模型,强化物理世界建模随后登场的是,中山大学计算机学院青年研究员、拓元智慧首席科学家王广润博士。他带来了《创新基础模型,强化物理世界建模》的主题演讲,王广润博士长期专注于新一代 AI 架构、大物理模型与世界模型等方向。在演讲中,王广润博士首先解释了物理空间智能的概念。10 年前,端到端是一个非常火的词,他认为,如今的物理空间智能也面临着“感知-规划-执行”端到端的实现,这就需要非常多的数据去训练,但高质量数据匮乏,难以学习到对齐物理世界的可靠执行策略。于是,王广润博士的团队就在推理计算上提出了全局迭代生成,相比于顺序生成,全局迭代生成有三种优势:全局性、渐进精化;快速性以及便于多模态统一。王广润博士还分享了三种传统方法,都存在着诸多不足。他们提出了一种全新的模型——原位 Tweedie 离散扩散模型,这个模型可以在 one-hot 单纯形上实现严格的扩散过程,直接在扩散空间中去噪,而不是依赖嵌入或掩码,也不依赖马尔科夫性。而且,在去噪的过程可以看出,随着迭代的变化,token 的语义能够从一开始t较高时的混乱噪声逐步随着t降低去噪为一个稳定的语义表征。有了框架之后,就可以开始训练模型了。王广润博士表示,VLA模型存在几项瓶颈:泛化能力不足、动作控制粗糙、建模范式矛盾。所以他们构建了新的方法——E0 具身大模型,在很多数据集和真机任务上都表现突出,并显示出了强大的泛化性能。王广润博士还分享了一个比喻:VLA =“你在监控中心,通过看不同房间的监控视频,遥操不同房间的机械臂”。其实人的泛化能力已经很强了,但在新环境下,还是需要在线简单学习。据此,王广润博士提出了物理建模与空间建模的解耦。最后,王广润博士表示自己的实验室做出了一个 24 小时运行无人机化物理智能评测平台,提供多种远程接口,无痛测评 VLA。王广润博士的报告从框架、模型到基准形成完整闭环,为 AI 从虚拟数字空间走向真实物理世界提供了关键技术支撑。香港中文大学(深圳)助理教授韩晓光—— 3DAIGC:人类安全感之战韩晓光教授在此次大会梳理了三维生成技术的发展脉络与未来挑战,并深入探讨了在视频生成与 AI 大模型时代,三维技术所扮演的关键角色及其不可替代的价值。韩晓光教授表示,三维生成技术在过去十年经历了飞速发展。早期阶段属于“类别限定”时代,需为椅子、车辆、人脸等不同物体分别训练独立模型。随着 Dreamfusion 等工作的出现,进入了“开放世界”时代,实现了文本生成 3D 模型,但生成速度较慢。当前已进入大模型时代,以 Adobe 的大型重建模型、混元 3D 等为代表,单图生成 3D 模型的效果和速度均已大幅提升。韩晓光教授指出了三维生成的三大趋势:一是更精细,追求几何细节的极致表现;二是更结构化,生成模型可自动拆解为部件,以适配游戏、制造等行业需求;三是更对齐,确保生成的三维模型在结构上与输入的二维图像精确对应,避免细节错乱。然而,视频生成(如Sora)的爆发式发展,对三维内容创作构成了“存在性”冲击。其核心矛盾在于,传统的三维流程复杂,但最终产出是视频;而 Sora 等模型可直接从文本生成视频,跳过了所有三维环节。这引发了行业对三维技术必要性的深刻质疑。对此,韩晓光教授分析,视频生成当前存在细节可控性差、长程记忆缺失等核心难题,这为三维技术留下了关键价值空间。他提出了四种可能的结合路径:一是纯 2D 的端到端模型;二是将 3D 仿真作为“世界模拟器”,先生成 CG 视频再使其逼真化;三是将 3D 信息作为额外控制信号输入生成网络;四是利用 3D 合成数据来增强视频模型的训练。在探讨“世界模型是否需要 3D ”时,韩晓光教授认为,世界模型的核心目标是数字化世界规律以实现预测。它可分为三类:服务于人类共同体的宏观模型、服务于个人探索的虚拟世界模型,以及服务于自动驾驶、具身智能等机器的具身世界模型。他强调,无论是为了满足 VR/AR 中“可交互”所需的触觉反馈,还是为机器人提供仿真训练环境,或是实现从虚拟到实体的智能制造,3D 都是不可或缺的基石。演讲最后聚焦于AI时代的“安全感”与“可解释性”问题。韩晓光教授指出,当前AI领域过度追求性能,但以“端到端”和“潜变量”为代表的“黑箱”模型,因其不可解释性而带来了不安全感。人类能直观理解 3D/4D 世界,而高维的潜变量则超出了我们的认知范围。因此,3D 作为一种人类可直观理解、可解释的显式表示,是构建可信、安全AI系统的关键途径。真正的安全感,源于模型效果与可解释性之间的平衡,而三维技术在其中将扮演至关重要的角色。圆桌环节:有关于世界模型的展望圆桌环节,世界模型主题圆桌论坛在赵昊教授的主持下正式开启。彭思达、胡文博、修宇亮、王广润、韩晓光几位嘉宾齐聚一堂展开了关于世界模型展望的探讨。彭思达先从“技术替代问题”切入,提到关于世界模型的发展,不能只看算法提升,还必须关注硬件的迭代,同时,彭思达在motion方面也提出了一些见解,他结合 DeepMind 最新工作提出bet,3D tracking 在2027年会慢慢收敛,与此同时,自监督学习也会出现巨大突破。胡文博分享了对世界模型、视频世界模型和空间智能之间的差异,他认为让模型理解空间还需要探索,他更致力于做一个给个人用的世界模型,让使用者可以体验一些不知道的世界,或者虚构的世界,甚至是他人的世界,这是非常有意义的。王广润认为世界模型有一个非常标准的应用,就在交互层
下一页上一页  (2/3)
回帖(20):
20 # z3960
12-24 17:20
了解信息
19 # z3960
12-24 17:20
来看一看
18 # hsieh2h
12-24 17:20
谢谢分享
17 # hsieh2h
12-24 17:20
了解一下
16 # hsieh2h
12-24 17:20
进来看一看
15 # 肥羊羊
12-21 17:52
搬运太辛苦
14 # 肥羊羊
12-21 17:48
已经了解啦
13 # 肥羊羊
12-21 17:45
过来瞧一瞧
12 # zhwy
12-21 17:38
感谢分享啦
11 # zhwy
12-21 17:34
了解一下子

全部回帖(20)»
最新回帖
收藏本帖
发新帖