VMonarch: Efficient Video Diffusion Transformers with Structured Attention

2026年5月5日·

Cheng Liang

,

Haoxian Chen

,

Liang Hou

,

Qi Fan

,

Gangshan Wu

,

Xin Tao

Limin Wang

Limin Wang

· 0 分钟阅读时长

引用 URL

类型

出版物

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

最近更新于 2026年5月5日

Limin Wang

Authors

← VideoRealBench: A Chain-of-Thought Realism Evaluation Benchmark for Generated Human-Centric Videos 2026年5月5日

Will Multimodal Models Be Dazzled by Multi-Image Visual Puzzles? 2026年5月5日 →