随笔档案「2026年3月13日」：当 MoE 专家不再"内卷"：Expert ... - OpenCSG

2026年3月13日

当 MoE 专家不再"内卷"：Expert Divergence Learning 如何让每个专家各司其职

摘要：当 150 亿参数的 MoE 模型训练完成，研究者们发现了一个令人困惑的现象：8 个专家网络学到的竟然是几乎相同的东西。这不是个例，而是 MoE 架构长期以来的“阿喀琉斯之踵”——专家同质化（Expert Homogenization）。在 ICLR 2026 上，阿里巴巴集团（Alibaba G 阅读全文

posted @ 2026-03-13 17:26 OpenCSG 阅读(19) 评论(0) 推荐(0)

OpenCSG

公告