会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
rh-li
博客园
首页
新随笔
联系
订阅
管理
2025年12月15日
【调研报告】RL有哪些数据技巧?
摘要: LIMR(25.02,SJTU):从大数据集里面挑出小数据集。方法: 1. 计算第k步中所有样本平均奖励的变化情况(跑一小步就可以) 2. 对于第i个样本,计算其奖励和平均奖励曲线的对齐程度 3. 选出对齐程度高的样本作为训练样本 缺点:没有办法从大样本集合中选出高质量样本 DAPO:进行动态采样
阅读全文
posted @ 2025-12-15 18:29 Brain404
阅读(10)
评论(0)
推荐(0)
公告