Will Multimodal Models Be Dazzled by Multi-Image Visual Puzzles?

2026年5月5日·

Zhi Zhu

,

YaoQi Fan

,

Zhe Chen

,

Yue Cao

,

Yangzhou Liu

Tong Lu

Tong Lu

· 0 分钟阅读时长

引用 URL

类型

出版物

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

最近更新于 2026年5月5日

Tong Lu

Authors

← VMonarch: Efficient Video Diffusion Transformers with Structured Attention 2026年5月5日

Arbitrary Generative Video Interpolation 2026年4月24日 →