摘要: 当 150 亿参数的 MoE 模型训练完成,研究者们发现了一个令人困惑的现象:8 个专家网络学到的竟然是几乎相同的东西。这不是个例,而是 MoE 架构长期以来的“阿喀琉斯之踵”——专家同质化(Expert Homogenization)。 在 ICLR 2026 上,阿里巴巴集团(Alibaba G 阅读全文
posted @ 2026-03-13 17:26 OpenCSG 阅读(19) 评论(0) 推荐(0)