摘要: LIMR(25.02,SJTU):从大数据集里面挑出小数据集。方法: 1. 计算第k步中所有样本平均奖励的变化情况(跑一小步就可以) 2. 对于第i个样本,计算其奖励和平均奖励曲线的对齐程度 3. 选出对齐程度高的样本作为训练样本 缺点:没有办法从大样本集合中选出高质量样本 DAPO:进行动态采样 阅读全文
posted @ 2025-12-15 18:29 Brain404 阅读(10) 评论(0) 推荐(0)