- 移动版

主题：CVPR 2026 | 火山引擎多媒体实验室提出TempR1，显著增强多模态大模型视频时序理解能力

爱我中华发表于 2026-04-13 20:35

在智能视频检索、人机交互、长视频分析等实际场景中，多模态大模型（MLLMs）对视频时序动态和语义的理解能力至关重要。然而现有方法要么局限于特定时序任务、泛化性差，要么因刚性监督导致过拟合，难以捕捉细粒度的时序依赖关系。
近日，多媒体实验室联合南京大学提出了 TempR1 ——一种基于时序感知多任务强化学习的全新方法，系统性地增强了多模态大模型在各类视频时序理解任务中的推理能力，在五大主流时序理解任务上均取得领先性能，为多模态大模型的长视频时序推理奠定了可扩展的新范式。相关研究成果也为视频理解领域的多任务强化学习应用提供了重要参考。
核心痛点：现有方法的两大局限
当前基于多模态大模型的视频时序理解方法主要分为监督微调（SFT）和强化学习（RL）两类，但均存在明显短板：
SFT方法：通过大规模指令微调提升时序理解能力，却易在有限时序数据集上过拟合，且刚性监督会损失模型的通用推理能力；
RL方法：直接优化任务特定目标，数据效率和泛化性更优，但大多仅聚焦于时序定位单一任务，缺乏对稠密定位、动作定位、时间敏感型问答等复杂场景的支持，也无法捕捉时序依赖的层级和组合特性。
此外，传统任务专用的架构设计，还导致模型跨任务、跨域泛化能力弱，需为不同数据集单独训练，扩展性和灵活性大打折扣。
TempR1的核心创新：多任务强化学习+定制化时序奖励设计
为解决上述问题，TempR1围绕多任务协同训练和精细化奖励设计两大核心展开，基于Group Relative Policy Optimization（GRPO）算法实现稳定的跨任务优化，让模型既能学习不同时序任务的共性能力，又能适配各任务的独特时序特征。
1.组织6万+样本的多任务时序语料库
覆盖五大典型视频时序理解任务，涵盖丰富且多样的时序事件结构，让模型充分学习不同场景的时序推理逻辑：
时序定位（TG）、稠密时序定位（DTG）
时序动作定位（TAL）、视频亮点检测（VHD）
基于定位的视频问答（GVQA）
2.三类时序区间-实例对应关系，定制化定位奖励
根据预测区间与真实实例的对应关系，将时序定位任务划分为一对一、多对一、多对多三种类型，并为每类设计专属的时序定位奖励函数，精准匹配不同任务的时序特性：
一对一（TG/DTG）：预测区间与真实事件一一对应，采用平均时序交并比（IoU）作为奖励；
多对一（VHD/GVQA）：多个预测区间对应单个真实实例，将所有预测/真实区间聚合后计算IoU；
多对多（TAL）：预测实例数量与真实值可能不同，融合实例数量奖励（惩罚数量不匹配）和动态规划匹配奖励（最大化预测与真实区间的总IoU，计算F1值），兼顾实例计数和时序边界定位精度。
3.统一强化学习框架，多奖励协同优化
在 GRPO 算法基础上，整合格式奖励（保证模型输出机器可解析的时序格式）、任务专属定位奖励，并为GVQA 任务增加分类奖励（评估问答准确率），形成统一的总奖励函数，实现端到端的多任务联合优化，同时避免单独批评网络的引入，大幅降低训练开销。
实验结果：五大任务全面SOTA，泛化性与单任务性能双提升
研究团队以 Qwen2.5-VL-7B 为基础模型，在多个公共基准数据集上开展了全面实验，结果显示 TempR1 相对现有方法展现出明显优势：
核心时序任务全面领先：在 Charades-STA、ActivityNet-Caption 的 TG/DTG任务，QVHighlights 的 VHD 任务，NExTG-QA 的GVQA 任务，以及 ActivityNet-v1.3 的 TAL 任务中，均取得当前最优性能。例如在 QVHighlights（VHD）上达到71.1 mIoU ，超第二名5.2个点；在 ActivityNet-v1.3（TAL）上mF1 达 71.0，超 MUSEG13个点。
多任务协同的强协同效应：消融实验证明，随着训练任务数量增加，模型在各基准上的性能持续提升，五大任务联合训练时效果最优，验证了不同时序任务间的知识迁移和能力互补。
保持通用视频理解能力：与监督式微调通常会削弱模型通用推理能力不同，TempR1的强化微调在提升时序理解的同时，在 VideoMME、MVBench 等通用视频理解基准上的表现也显著优于基础模型和SFT模型。
定性分析：更精准的时序定位，更一致的推理逻辑
模型推理结果可视化分析显示，TempR1 展现出更优的细粒度时序理解能力：
时序动作定位（TAL）中，动态规划匹配策略能在多实例复杂场景下，实现预测区间与真实实例的精准对齐，定位结果更准确、一致；
基于定位的视频问答（GVQA）中，TempR1 不仅能给出正确答案，还能提供更完整、精准的时序证据，实现视觉证据与文本答案的推理一致性，优于VideoChat-R1 等基线模型。
总结与展望
TempR1 通过多任务强化学习框架、覆盖五大典型任务的高质量语料库和针对不同时序特性的定制化奖励设计，显著提高了现有多模态大模型在视频时序理解中的准确度和泛化性，实现了跨任务的性能协同提升，同时保持了模型的通用视频理解能力。
该研究为多模态大模型的时序推理优化提供了可扩展的新范式，也为长视频分析、智能视频检索等实际应用提供了更强的技术支撑。未来，基于这一框架，可进一步拓展至更多复杂的视频时序理解场景，持续提升多模态大模型对动态视觉内容的理解和推理能力。
论文链接：https://arxiv.org/abs/2512.03963

回帖(6)：

6 ^# huwg
04-14 04:49

谢谢分享

5 ^# huwg
04-14 04:49

了解一下

4 ^# huwg
04-14 04:49

来看看

3 ^# 任逍遥
04-13 21:20

不错，了解了

2 ^# 任逍遥
04-13 21:20

也就看看

1 ^# 任逍遥
04-13 21:20

来看一下

全部回帖(6)»