随笔档案「2025年12月15日」：【调研报告】RL有哪些数据技巧？ ... - Brain404

2025年12月15日

摘要： LIMR（25.02，SJTU）：从大数据集里面挑出小数据集。方法： 1. 计算第k步中所有样本平均奖励的变化情况（跑一小步就可以） 2. 对于第i个样本，计算其奖励和平均奖励曲线的对齐程度 3. 选出对齐程度高的样本作为训练样本缺点：没有办法从大样本集合中选出高质量样本 DAPO：进行动态采样阅读全文

posted @ 2025-12-15 18:29 Brain404 阅读(10) 评论(0) 推荐(0)

rh-li

公告