会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
OpenCSG
博客园
首页
新随笔
联系
订阅
管理
2026年3月13日
当 MoE 专家不再"内卷":Expert Divergence Learning 如何让每个专家各司其职
摘要: 当 150 亿参数的 MoE 模型训练完成,研究者们发现了一个令人困惑的现象:8 个专家网络学到的竟然是几乎相同的东西。这不是个例,而是 MoE 架构长期以来的“阿喀琉斯之踵”——专家同质化(Expert Homogenization)。 在 ICLR 2026 上,阿里巴巴集团(Alibaba G
阅读全文
posted @ 2026-03-13 17:26 OpenCSG
阅读(19)
评论(0)
推荐(0)
公告