CVPR 2026录用论文简介 | 南京大学大模型研究协同创新中心

CVPR（IEEE/CVF Conference on Computer Vision and Pattern Recognition，计算机视觉和模式识别会议）是国际上最具影响力的人工智能学术会议之一，主要聚焦计算机视觉、模式识别及相关人工智能领域的前沿研究。根据 2025 年 Google Scholar Metrics，CVPR 在全球英文期刊和会议中排名第 2，仅次于 Nature；在 Engineering & Computer Science 类别中排名第 1，显示出其在人工智能与计算机视觉领域的高度学术影响力。

南京大学计算机学院大模型中心有12篇论文被CVPR 2026录用。

01

题目：VideoRealBench: A Chain-of-Thought Realism Evaluation Benchmark for Generated Human-Centric Videos

作者：Min Yang (杨珉), Xinwen Zhang (张馨文), Jialei Tang (唐佳磊), Xin Zhou (周鑫), Kehan Li (李可汉), Zeyi Huang (黄泽毅), Limin Wang (王利民)

单位：南京大学，华为中央媒体技术院，上海人工智能实验室

论文简介：

随着视频生成模型的飞速发展，越来越多的内容创作者和研究人员正利用这些技术，大规模制作以人为中心的视频，用于内容创作以及特定任务所需的定制化数据生成。尽管现有的视频生成模型已能产出视觉质量极高的视频，但由于其对视频真实性的理解尚显不足，往往会导致生成的内容缺乏真实感。尽管目前已涌现出各类用于评估生成视频质量的评价器，但由于它们大多基于低质量的生成视频及数据标注进行训练，其评分结果往往与人类的偏好存在偏差。此外，由于缺乏“思维链”式的推理过程，这些评价器也普遍缺乏可解释性。为了解决上述问题，我们提出了VideoRealBench——一个专门用于全面评估以人为中心的生成视频真实性的综合性基准。我们采用一套基于人类偏好设计的评分体系对视频进行打分，并为每个评分提供三步式的推理依据；基于此，我们构建了一个经过精细标注的数据集 VideoRealDataset，并提出了一款名为 VideoRealEval的评价器，该评价器不仅能提供可靠的评分，还能给出详尽的推理说明。在 VideoRealDataset 上，VideoRealEval 取得了 57.07% 的皮尔逊线性相关系数（PLCC）和 56.78% 的斯皮尔曼等级相关系数（SROCC），这一结果充分表明，相比现有的评价器，VideoRealEval 的评估结果与人类偏好更为契合。

02

题目：TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs

作者：Jun Zhang (张峻), Teng Wang (王腾), Yuying Ge (葛玉莹), Yixiao Ge (葛艺潇), Xinhao Li (李新浩), Ying Shan (单瀛), Limin Wang (王利民)

单位：南京大学，腾讯，上海人工智能实验室

论文简介：

视频时序定位（Video Temporal Grounding, VTG）是视频理解中的一项核心能力。本文并未提出一种全新的方法，而是围绕这一任务构建了一个直接、渐进但至关重要的强基线。尽管多模态大语言模型（MLLMs）在多种视频理解任务上已经表现出色，但如何针对 VTG 对其进行有效优化，仍缺乏系统研究。为此，本文提出了 TimeLens，从数据质量与算法设计两个关键维度，系统性地研究如何构建具备强大 VTG 能力的 MLLM。首先，我们揭示了现有 VTG 基准中存在的严重数据质量问题，并提出了 TimeLens-Bench：在严格质量标准下，对三个主流基准进行精细重标注后得到的高质量评测集。实验分析表明，与传统基准相比，模型排名会发生显著变化，说明以往评测标准并不可靠。与此同时，我们还通过自动重标注流程处理噪声训练数据，构建了大规模高质量训练集 TimeLens-100K。在此基础上，本文进一步深入探索 VTG 的关键算法设计原则，提出了一系列有效且高效的实践，包括用于时间表示的交错式文本编码（interleaved textual encoding）、基于可验证奖励的无思维强化学习（thinking-free RLVR）训练范式，以及一套精心设计的 RLVR 训练配方。综合这些设计，我们最终得到 TimeLens 模型系列，其在开源模型中实现了当前最优的 VTG 性能，甚至超越了 GPT-5 和 Gemini-2.5-Flash 等前沿闭源模型。相关代码、数据与模型将全部开源，以促进后续研究。

03

题目：UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

作者：Guozhen Zhang (张国珍), Zixiang Zhou (周子翔), Teng Hu (胡腾), Ziqiao Peng (彭子乔), Youliang Zhang (张友亮), Yi Chen (陈毅), Yuan Zhou (周源), Qinglin Lu (陆青林), Limin Wang (王利民)

单位：南京大学，腾讯混元，上海交通大学，中国人民大学，清华大学，上海人工智能实验室

论文简介：

现有开源音视频生成方法因缺乏有效的跨模态建模，普遍存在口型同步效果差、语义一致性不足的问题。为解决上述缺陷，本文提出 UniAVGen，一款面向音视频联合生成的统一框架。UniAVGen 基于双分支联合合成架构搭建，采用两路并行的扩散 Transformer（DiT）构建统一的跨模态隐空间。其核心为非对称跨模态交互机制，该机制可实现双向、时间对齐的交叉注意力，保障生成内容精准的时空同步与语义一致性。此外，我们通过人脸感知调制（FAM）模块增强跨模态交互能力，可在交互过程中对视觉显著区域进行动态加权。为进一步提升推理阶段的生成保真度，我们提出模态感知无分类器引导（MA-CFG）策略，该全新策略可显式强化跨模态关联信号。值得注意的是，UniAVGen 鲁棒的联合合成设计，可在单个模型内无缝适配音视频联合生成、音视频续写、视频转音频配音、音频驱动视频合成等多个核心音视频任务。综合实验验证，即便使用远少于现有方法的训练样本（130 万 vs 3010 万），UniAVGen 仍在音视频同步性、音色一致性与情感一致性上展现出全面的性能优势。

04

题目：InternVideo-Next: Towards World Understanding Video Models

作者：Chenting Wang (王晨汀), Yuhan Zhu (朱宇涵), Yicheng Xu (徐屹成), Jiange Yang (杨剑阁), Ziang Yan (晏子昂), Yali Wang (王亚立), Yi Wang (王毅), Limin Wang (王利民)

单位：上海交通大学, 上海人工智能实验室, 上海创新研究院, 中国科学院深圳先进技术研究院, 南京大学

论文简介：

大规模视频文本预训练虽然取得了较好性能，但过度依赖带有噪声的合成文本，往往忽略了物体运动、3D几何和物理线索等隐含的物理世界知识。另一方面，直接利用时空结构的掩码视频建模（MVM）方法却因为像素级重建与高级语义的冲突，或隐空间预测容易导致“捷径学习”，在通用任务上表现不佳。为了解决这些架构缺陷，我们提出了 InternVideo-Next，这是一种旨在理解物理世界的两阶段纯视频预训练架构。该方法将传统的编码器-解码器解耦为编码器-预测器-解码器（EPD）框架，其中预测器充当潜在的世界模型。在第一阶段，模型引入了条件扩散解码器和可靠的图像级语义先验，构建了一个既保持语义一致又保留底层细节的隐空间；第二阶段则在此隐空间内通过预测冻结的目标特征来学习世界知识，有效缓解了捷径学习问题。实验结果表明，仅在使用公开的无标签视频数据进行预训练的情况下，InternVideo-Next 在动作识别、细粒度运动、深度估计和目标跟踪等多个基准测试中均达到了最佳性能。特别值得一提的是，它是首个在没有显式视频-文本监督的情况下，在 Kinetics-400 和 SSv2 上超越图文预训练模型的纯视频模型，为通用视频表征学习提供了一条高效且可扩展的路径。

05

题目：DDT: Decoupled Diffusion Transformer

作者：Shuai Wang, Zhi Tian, Weilin Huang, Limin Wang (王利民)

单位：南京大学, 字节跳动

链接：https://arxiv.org/abs/2504.05741

论文简介：

扩散变换器展现出极佳的生成效果，但存在训练迭代次数多、推理步数庞大的问题。在每一个去噪步骤中，扩散变换器会对含噪声输入进行编码，提取低频语义特征，再通过结构相同的模块完成高频信息解码。该架构设计存在固有优化矛盾：低频语义编码需要抑制高频特征，导致语义编码与高频解码之间形成性能制衡。针对这一难题，本文提出解耦式扩散变换器（DDT），采用双分支解耦设计：设置专属条件编码器用于语义特征提取，搭配独立的速度解码器完成高频还原。实验结果表明，随着模型规模扩增，编码器容量的提升能够持续带来性能增益。在 256×256 分辨率的 ImageNet 数据集上，DDT-XL/2 模型取得 1.31 的 FID 分数，刷新当前最优指标，相较现有扩散变换器，训练收敛速度提升近 4 倍；在 512×512 分辨率 ImageNet 数据集上，DDT-XL/2 以 1.28 的 FID 分数再创业界新高。除此之外，该解耦架构可在相邻去噪步骤间实现自条件信息复用，显著提升推理速度。为最大限度降低性能损耗，本文进一步提出一种全新的统计动态规划策略，用以求解最优的信息复用方案。

06

题目：TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task Reinforcement Learning

作者：Tao Wu (吴涛), Li Yang (杨力), Gen Zhan (詹亘), Yabin Zhang (张亚彬), Yiting Liao (廖懿婷), Junlin Li (李军林), Deliang Fu (傅德良), Li Zhang (张莉), Limin Wang (王利民)

单位：南京大学，字节跳动，上海人工智能实验室

论文简介：

增强多模态大语言模型（MLLMs）的时序理解能力是长视频分析的一个核心需求，可以为时序定位、时序敏感型视频问答等任务提供支撑。现有基于强化学习的时序推理方法多局限于特定任务或数据集，难以满足不同场景中区别化的时序理解要求。为此，本文提出TempR1，一种基于强化学习的多任务训练方法，面向多任务强化MLLM的时序理解能力。该方法构建了覆盖多样时间结构的多任务语料库，并基于组相对策略优化（GRPO）算法实现稳定的跨任务优化；同时，TempR1将时序任务划分为三种区间-实例对应类型，为每种类型设计定制化的定位奖励函数，使模型能够捕捉细粒度的时间依赖关系并适配不同时序模式。大量实验表明，TempR1在五大时序理解任务的多个基准测试中取得了领先性能，互补任务间的联合优化产生了显著的协同效应，在提升模型泛化能力的同时也改善了单任务表现，为MLLM的时间推理增强提供了一种可扩展的范式

07

题目：VMonarch: A Sub-Quadratic Attention Mechanism for Video Diffusion Transformers

作者：Cheng Liang, Haoxian Chen, Liang Hou, Qi Fan, Gangshan Wu, Xin Tao, Limin Wang (王利民)

单位：南京大学，可灵团队（快手）

论文简介：

注意力机制的二次复杂度严重限制了视频扩散 Transformer（Video Diffusion Transformers, DiTs）的上下文扩展能力。我们发现，Video DiTs 中呈现的高度稀疏的时空注意力模式可以被 Monarch 矩阵自然地表示。Monarch 矩阵是一类具有灵活稀疏性的结构化矩阵，可通过交替最小化算法实现次二次注意力计算。基于此，我们提出 VMonarch，这是一种面向 Video DiTs 的新型注意力机制，利用结构化 Monarch 矩阵对动态稀疏模式进行高效计算。首先，我们设计了时空 Monarch 分解，以显式捕获视频数据的帧内与帧间相关性。其次，我们引入重计算策略，以缓解 Monarch 矩阵交替最小化过程中不稳定性带来的伪影。第三，我们提出融合到 FlashAttention 中的在线熵算法，使得在长序列场景下能够快速更新 Monarch 矩阵。大量实验表明，在仅进行少量调优后，VMonarch 在 VBench 上可达到与全注意力相当或更优的生成质量。该方法突破了 Video DiTs 的注意力瓶颈，将注意力 FLOPs 降低了 17.5 倍，并在长视频注意力计算上实现了超过 5倍的加速，在 90% 稀疏率下超越了当前最先进的稀疏注意力方法。

08

题目：CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

作者：Jiange Yang, Yansong Shi, Haoyi Zhu, Mingyu Liu, Kaijing Ma, Yating Wang, Gangshan Wu, Tong He, Limin Wang (王利民)

单位：南京大学, 上海人工智能实验室

论文简介：

本文提出了从海量互联网视频中无监督学习连续隐运动表征的框架CoMo。针对现有离散化方法普遍存在的细粒度运动信息损失，以及其与连续机器人动作分布不一致、阻碍统一策略联合学习等问题，CoMo提出了早期时序差分机制和时序对比学习方案。二者协同作用，不仅显著提升了模型克服捷径学习的能力，还更好地确保了提取的隐运动表征能够精准地聚焦于有意义的前景运动区域并强化运动线索。CoMo也展现出强大的零样本泛化能力，能够为未见的无动作标签的视频生成有效的伪动作标签。CoMo提取的连续隐运动表征与真实的机器人动作的连续分布一致，天然地有助于统一策略的联合学习。大量仿真与真机实验表明，在融合CoMo伪标签视频数据进行联合训练后，机器人策略模型在大量操作任务均取得了显著的性能提升。综上所述，CoMo能够为多源异构的大规模视频数据提供统一的、更精确的动作标签，为实现通用可扩展的机器人策略学习提供了一种高效的解决方案。

09

题目：AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

作者：Lidong Lu（卢利栋）,Guo Chen（陈果）, Wei Zhu（朱伟）, Zhiqi Li（李志琦）, Yicheng Liu（刘一澄）,Tong Lu（路通）

单位：南京大学，中国移动紫金创新研究院

链接：https://arxiv.org/abs/2506.05328；https://av-reasoner.github.io/

论文简介：

多模态大语言模型虽然在图像描述、视频问答和音视频理解等任务中取得了显著进展，但其在“计数”这一基础能力上仍表现不足，尤其难以处理长视频中的细粒度目标识别、时空定位、跨模态对齐与多实例去重问题。现有视频计数基准主要存在评测场景较短、问题形式有限、缺乏可解释线索标注以及音视频协同评估不足等问题，难以全面衡量模型是否真正具备可解释的计数推理能力。为此，本文提出了 CG-AV-Counting，一个面向长视频音视频计数的人工标注基准，包含 497 条真实长视频、1,027 个多模态计数问题和 5,845 条细粒度线索，覆盖事件、物体和属性等多类计数目标。进一步地，本文提出 AV-Reasoner，通过冷启动监督微调、课程式强化学习、阶段复习机制和全任务强化学习，在有限计数标注下逐步提升模型的感知、定位与推理能力。实验表明，当前主流多模态模型在长视频计数上仍与人类存在明显差距，而 AV-Reasoner 在多个计数与音视频理解基准上取得显著提升，为细粒度多模态推理和可解释视频计数提供了新的评测基准与方法参考。

10

题目：Will Mutimodal Models Be Dazzled by Muti-Image Visual Puzzles?

作者：Zhi Zhu(朱至)， YaoQi Fan(樊垚旗)， Zhe Chen(陈喆)， Yue Cao(曹越)，Yangzhou Liu(刘羊周)， Tong Lu(路通)

单位：南京大学

论文简介：

随着多模态大语言模型（MLLMs）的飞速发展，现有评测基准在评估跨多图复杂推理能力方面的局限性愈发显著。为弥补这一科研空白，我们引入了 MIRACLE：一个专为多图复杂推理与逻辑理解评估设计的创新基准。该基准包含 4,000 个高质量题项，涵盖了视觉对比、时序分析及空间关系等多元推理维度。MIRACLE 核心优势在于其强调严苛的图像间依赖性。通过系统化的数据采集、精细化的实例分组以及针对性的问题设计，该基准强制模型必须通过跨图逻辑整合而非单一图像识别来完成任务。实验评估显示，当前顶尖的 MLLMs（如 Gemini-2.5-Pro）在 MIRACLE 上的得分仅为 55.91%，凸显了多图推理任务的严峻挑战。研究进一步发现，在高视觉信息密度场景下（如拼图任务及超多图输入条件），所有受测模型的性能均出现大幅滑坡。这揭示了当前 MLLMs 在处理复杂结构关系与协同推理任务时的短板，反映出其在高负载视觉推理环境下的认知能力缺陷。我们希望 MIRACLE 的发布能为学术界提供新的评估维度，推动多模态推理领域突破现有边界。

11

题目：Bayesian Decomposition and Semantic Completion for Few-shot Semantic Segmentation

作者：Guangchen Shi（师广琛）, Yirui Wu（巫义锐）, Zhu Wei（朱伟）, Tao Wang（王涛）, Hao Zhang（张昊）, Bo Li（李博）, Tong Lu（路通）

单位：南京大学、河海大学、中国移动紫金创新研究院、VIVO

论文简介：

小样本语义分割（FSS）旨在仅凭借少量带标注示例，学会对新类别对象的分割。然而，现有方法往往依赖复杂的特定类别建模，这导致训练其成本高昂，且在少量样本条件下泛化能力有限。为应对这些挑战，我们提出一种贝叶斯概率网络（BPNet），它将小样本语义分割重新表述为三个可解释组件的组合：先验、似然和类别一致性项。具体来说，我们采用高效的SAM为查询图像生成碎片化的先验区域，而似然和一致性项均由轻量级的类别无关定位模块（CALM）进行估计。CALM通过一个二分类头，同时预测支持图像与查询图像之间的类别一致性，并通过在支撑图像中定位目标区域来估计似然项。通过并行评估SAM生成的碎片化区域块，CALM能够高效识别类别核心块，从而将分割问题转化为一个简单的二分类任务。此外，为缓解SAM生成区域的语义不完整问题，我们引入基于注意力机制的语义补全模块（SCM）。该模块利用局部和全局上下文线索，将碎片化区域整合为语义完整的掩码。大量实验表明，BPNet在保持高效分割的同时，取得了当前最优的性能。

12

题目：Rethinking BCE Loss for Multi-Label Image Recognition with Fine-Tuning

作者：Ao Zhou (周翱), Zhiwei Jiang (蒋智威), Zifeng Cheng (程紫峰), Cong Wang (王聪), Yafeng Yin (殷亚凤), Shufan Yang (杨书璠), Qing Gu (顾庆)

单位：南京大学

论文简介：

在多标签图像任务中，我们发现在使用二元交叉熵损失对视觉-语言模型进行微调时，模型的置信度会出现系统性扭曲—模型对训练中见过的基类预测过于保守，对未见过的新类又过于自信，而现有校准方法难以解决这一问题。为此，我们提出类间协方差正则化Class-wise Covariance Regularization (CCR)，通过利用大量负样本构建预测协方差矩阵，并将其与文本嵌入的语义相关性对齐，从而在微调过程中保持类间几何结构的稳定。该方法不仅能显著提升模型置信度的可靠性，还能同时改善头类、尾类与新类的识别与校准表现。CCR即插即用、兼容现有微调框架(包括prompt Fine-Tuning提示词微调和适配器微调adapter Fine-Tuning)，在医疗影像、自动驾驶、等对预测可信度要求高的现实场景中具有重要的应用价值。

查看原文