摘要:
提供了 MATH、GSM8K、AIME24 等常用数学数据集的 基本信息和链接。 阅读全文
posted @ 2026-02-13 13:13
MoonOut
阅读(64)
评论(0)
推荐(0)
摘要:
REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”,并搭配稳定的 KL 估计方式,比 PPO 轻量级,比 GRPO 稳定和泛化性强。 阅读全文
posted @ 2026-02-13 11:51
MoonOut
阅读(13)
评论(0)
推荐(0)

浙公网安备 33010602011771号