Will Multimodal Models Be Dazzled by Multi-Image Visual Puzzles? 2026年5月5日· Zhi Zhu , YaoQi Fan , Zhe Chen , Yue Cao , Yangzhou Liu Tong Lu · 0 分钟阅读时长 引用 URL 类型 会议文章 出版物 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 最近更新于 2026年5月5日 Authors Tong Lu 南京大学 ← VMonarch: Efficient Video Diffusion Transformers with Structured Attention 2026年5月5日 Arbitrary Generative Video Interpolation 2026年4月24日 →