DuPO: Enabling Reliable Self-Verification via Dual Preference Optimization 2026年4月24日· Shuaijie She , Yu Bao , Yu Lu , Lu Xu , Tao Li , Wenhao Zhu , Jianbing Zhang Shujian Huang , Shanbo Cheng , Lu Lu , Yuxuan Wang · 0 分钟阅读时长 引用 URL 类型 会议文章 出版物 The Fourteenth International Conference on Learning Representations 最近更新于 2026年4月24日 ← CaReBench: A Fine-grained Benchmark for Video Captioning and Retrieval 2026年4月24日 Long-Context Attention Benchmark: From Kernel Efficiency to Distributed Context Parallelism 2026年4月24日 →