Balancing the Experts: Unlocking LoRA-MoE for GRPO via Mechanism-Aware Rewards

2026年4月24日·

Changlian Ma

,

Zizheng Huang

,

Xiangyu Zeng

,

Yi Wang

,

Cheng Liang

,

Kun Tian

,

Xinhai Zhao

Limin Wang

Limin Wang

· 0 分钟阅读时长

引用 URL

类型

出版物

The Fourteenth International Conference on Learning Representations

最近更新于 2026年4月24日

Limin Wang

Authors

← Arbitrary Generative Video Interpolation 2026年4月24日

CaReBench: A Fine-grained Benchmark for Video Captioning and Retrieval 2026年4月24日 →