摘要: 提供了 MATH、GSM8K、AIME24 等常用数学数据集的 基本信息和链接。 阅读全文
posted @ 2026-02-13 13:13 MoonOut 阅读(64) 评论(0) 推荐(0)
摘要: REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”,并搭配稳定的 KL 估计方式,比 PPO 轻量级,比 GRPO 稳定和泛化性强。 阅读全文
posted @ 2026-02-13 11:51 MoonOut 阅读(13) 评论(0) 推荐(0)