论文速读记录 | 2025.12(2)
目录
- Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning
- 一些 labeled data / expert demo + unlabeled data 的 offline RL 工作
- Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning
- (U2O RL) Unsupervised-to-Online Reinforcement Learning
- (HILP) Foundation policies with hilbert representations
- Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills
- OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning
- Parrot: Data-driven behavioral priors for reinforcement learning
- (ICVF) Reinforcement learning from passive data via latent intentions
- Become a proficient player with limited data through watching pure videos
- (PEX) Policy expansion for bridging offline-to-online reinforcement learning
- Cup: Critic-guided policy reuse
Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning
- arxiv:https://arxiv.org/abs/2302.08738
- 来源:无意中看到的,AAAI 2023。
- 主要内容:为 PbRL 提出两种无监督 / 自监督技术,来 online 地利用 unlabelled data。1. 认为所有 unlabelled segment 都是人类喜欢的,并将 [R1 R2 ... RH] 作为奖励向量,通过神秘的 triplet loss 进行对比学习;2. 鼓励 reward model 中 state 的 embedding(没有细看这是什么)之间的距离满足 temporal distance,使用 MSE loss 来做。
- 没有细读。
一些 labeled data / expert demo + unlabeled data 的 offline RL 工作
- 除了 CDS UDS 之外,还有:
- The Provable Benefits of Unsupervised Data Sharing for Offline Reinforcement Learning,https://arxiv.org/abs/2302.13493 ,ICLR 2023,师兄的工作。好像很理论,没有看。
- CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning,https://arxiv.org/abs/2104.07749 ,CoRL 2023:
- 校准潜在空间(Calibrated Latent Guidance):用 CVAE 学习 state-action 的潜在表示,但通过关键正则化强制所有专家数据嵌入坍缩到原点(均值 / 方差 ≈ 0)。这样,专家行为在潜在空间被"绑"成单点,任意样本与它的距离天然构成任务导向的内在奖励 —— 越像专家,奖励越高。无需对抗、无需时序建模,距离即奖励。
- 🥑 这篇文章也希望在 latent space 里面,用 latent space 里的距离来标 reward。
- 看起来没有理论,感觉是纯启发式的。
- Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories,https://arxiv.org/abs/2210.06518 ,ICML 2023:
- setting:纯 offline,数据集有 (s,a,r,s,a,r) 和 (s,r,s,r) 两种,并且数据集质量参差不齐。
- 做的事情好像很简单,就是使用了一个 inverse dynamic model(IDM),输入 s r 输出 action,但使用的是什么多步 IDM,作者声称可以建模 non-markov 策略,并且处理参差不齐的数据质量。
- 看起来只有支持性的理论,没有那种证明收敛或者 bound 的理论(不确定,没仔细看)。
Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning
- arxiv:https://arxiv.org/abs/2201.13425
- 来源:ICLR 2022 年的 workshop。
- 主要内容:现在 offline rl 算法为了应对 distributional shift 问题,已经过度设计了(如 CQL、IQL 这些),但是如果 offline 数据集涵盖的分布足够广,这篇文章证明普通的 off-policy 算法就也能使用。为此,这篇文章先使用多种无监督 online 探索方法,收集一大批随机数据集,然后把这些数据集对每个下游 task 都标上相应的 reward,去做 Vanilla TD3,实验结果证明性能很好。
- 感觉是有趣的工作。
(U2O RL) Unsupervised-to-Online Reinforcement Learning
- arxiv:https://arxiv.org/abs/2408.14785
- 来源:ICLR 2025 投稿。作者是 Junsu Kim1, Seohong Park, Sergey Levine。
- 主要内容:故事是,就像 LLM 先用海量无标签文本预训练 再微调一样,RL也应该先用无监督方式,从多样化的 offline 数据中学习通用技能,而不是一上来就盯着单个任务。
- method:用 HILP 算法训练技能策略 → 用少量带奖励数据做 metra 内积 reward 形式的线性回归,找到最优技能向量 z → 对于这个 z 进行 online 策略微调。
(HILP) Foundation policies with hilbert representations
- arxiv:https://arxiv.org/abs/2402.15567
- website:https://seohong.me/projects/hilp/
- 来源:ICML 2024,offline metra,Seohong Park 的工作。
- 主要内容:想使用数据质量参差不齐的 offline data 训练一个“foundation policy”,使其能做 zero-shot RL、GCRL 和 hierarchical RL。
- 现有方法的问题:HILP 声称 bc 依赖高质量数据,GCRL 只能学到如何到达目标,而 unsupervised skill discovery(如果有 offline 版本的话)学到的 skill 质量不够高。
- method:
- 几乎完全使用 metra 架构。学基于 temporal distance 的 state embedding \(\phi(s) - \phi(g) \approx d_t(s,g)\),然后利用 GCRL 结论:最优时序距离 = 负的 V(s,g) 价值函数,使用 state embedding \(\phi(s)\) 来参数化 value function,用 IQL 的 expectile 回归 \(\ell^2_\tau\) 学这个 \(\phi(s)\):\[\mathcal{L}_\phi = \mathbb{E}\left[\ell_\tau^2\big(-\mathbb{1}(s\neq g) - \gamma\|\bar{\phi}(s') - \bar{\phi}(g)\| + \|\phi(s) - \phi(g)\|\big)\right] \]
- 然后,在学好 phi 之后(HILP 似乎是两阶段的),使用 metra 的内积 reward,\(r(s,a,s') = [\phi(s') - \phi(s)]^T z\) ,z 是随机采样的单位向量,代表一个方向。使用 IQL(又使用 IQL)最大化这个内积 reward,训练 \(\pi(a | s,z)\)。
- 对于 zero-shot RL,可以直接通过对内积 reward 做线性回归,推断出最优的方向 z。对于 goal-conditioned RL,给定一个 goal g,z 的方向会是 \(\phi(g) - \phi(s)\)。这个形式还是跟 metra 一样好,metra 真好…
- 思考,为什么要用 φ(s) 学 V(s,a),而不是直接学一个 Q(s,a,g):或许 phi 空间可以带来更强的行为多样性和泛化能力,让我们所能达到的 goal 不局限于数据集中出现的 state。并且,(在某种程度上)以自然的方式实现了下一篇 actionable models 里的 goal chaining 插值,把两个行为拼起来达成一个大目标。此外,phi 空间在某种程度上是 task 无关的,可能耦合的行为策略信息比较少(这条是 kimi 说的,我也不确定)。
- 细节:1. Reward centering:实验发现用 \(r = \langle \phi(s') - \bar{\phi}, z \rangle\)(减均值)在 zero-shot RL 上更稳定。2. Expectile τ:φ 训练用 τ = 0.5 ~ 0.9(控制乐观程度),π训 练用τ = 0.7 ~ 0.9。3. 折扣因子 γ:φ 用 γ<1(近似时序距离),π 用 γ=0.99 标准 RL。
- 实验:
| 任务类型 | Benchmark | 环境 | 数据构成 | 输入/输出 |
|---|---|---|---|---|
| Zero-shot RL | ExORL | Walker / Cheetah / Quadruped / Jaco | APS / APT / Proto / RND 收集的 500 万步无标签轨迹 | 输入:状态(或 64×64×3 像素) 测试指令:新奖励函数 输出:最大化该奖励的动作 |
| Goal-conditioned RL | D4RL | AntMaze-Large / Ultra, Kitchen-Partial / Mixed | 1000 条导航 / 操纵轨迹 | 输入:当前状态 + 目标状态 (g) 测试指令:目标坐标或物体状态 输出:到达目标的动作 |
| Hierarchical RL | D4RL | AntMaze / Kitchen(同上) | 同上 | 高层输入:状态 高层输出:技能z 底层输入:(s,z) 底层输出:原子动作 |
Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills
- arxiv:https://arxiv.org/abs/2104.07749
- 来源:ICML 2021。
- 主要内容:setting 似乎仍然是 GCRL,学一个 \(\pi(a | s,sPg)\),其中 state 都是 pixel-based image。
- method 是去学一个保守的 goal-conditioned Q 函数,使用经典的 goal-conditioned 监督学习。loss 是 minimize (Q(s,a,g) - y)² + (Q(s,ã,g) - 0)²,其中正样本 (s,a,g) 来源于一个 segment,g 是 segment 的最后一个 state,ã 负样本是在动作空间采样的 没见过的动作。
- 然而这样可能会导致,agent 只能学到(比如说)抓取 放置 这种小的动作片段,而无法解决 long-horizon 的问题 pick-and-place 问题,因为数据集里没有一个完整的 pick-and-place 数据。这篇文章使用目标链(Goal Chaining)技术,minimize (Q(s,a,g) - Q(s',a',g))² ,其中 (s,a,s',a') 在同一个 segment 里,(s',a') 是这个 segment 的最后一个 state-action。感觉是巧妙的。
- 有一个 baseline 是 GCBC,应该是 goal-conditioned behavior cloning。好像从哪里看过,这是一个意外简洁又好用的方法,看起来这个 baseline 在这篇的实验里也能 work 一些;而纯 HER + off-policy / offline RL 失败了,可能因为不是监督学习()
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning
- arxiv:https://arxiv.org/abs/2010.13611
- 来源:uber 的 baseline,ICLR 2021。
- 主要内容:离线提取时序原语 → 在潜空间做离线 RL,两阶段全离线。
- 用 VAE 学习持续 c 步的连续原语,但关键改进是使用 KL 约束,让编码器靠近初始状态预测器 而非目标状态,防止退化解,如所有 z 学成一个策略(没细看)。
- 将 c 步动作压缩成一个潜变量 z,上层 action 去选 z。这应该就是师兄讲过的工作,有效 horizon 从 T 缩短到 T/c,offline RL 的 bootstrap 误差传播被指数级抑制。opal 应该有相关理论。
Parrot: Data-driven behavioral priors for reinforcement learning
- arxiv:https://arxiv.org/abs/2011.10024
- website:https://sites.google.com/view/parrot-rl
- 来源:uber 的 baseline,ICLR 2021 oral。
- 主要内容:这一篇又在讲预训练故事。声称 VAE 等方法学到的 latent space,会导致"锁死"动作空间,无法保留尝试全新行为的能力,无法处理训练数据未覆盖的关键动作。
- 用 Normalizing Flows 学习可逆的行为先验。latent space 这样学:在 50K 条无奖励的旧任务轨迹上(这个数据集的质量可能要稍微高一些,不能用 random),训练条件 Real NVP 模型 z = f⁻¹(a; s),将复杂动作分布映射到标准高斯噪声。然后,最大化条件对数似然 log p(a|s),使用 CNN 编码图像 s 作为条件。目标是:给定状态 s,从标准高斯采样 z,能生成数据中"合理"的动作 a。
- 没有仔细看。
(ICVF) Reinforcement learning from passive data via latent intentions
- arxiv:https://arxiv.org/abs/2304.04782
- website:https://dibyaghosh.com/icvf/
- 来源:uber 提到的文章,ICML 2023,是 RL 方向的 oral poster(不知道 oral poster 是什么机制)。
- setting:我们只有没有标注 action 的 (s,s,s,s) 轨迹,甚至 state 是 pixel-based 的,ICVF 把这个叫做“被动数据”。ICVF 希望设计一个预训练框架,先在大规模被动数据上学习状态表示(state representation),再在小规模主动数据(有动作和奖励)上快速学会完成具体任务。
- curl 等用对比学习的方法,也是学 pixel-based 数据的 representation,但 ICVF 说 curl 只能学 vision 信息,对控制任务帮助有限。
- motivation:被动数据虽然缺动作和奖励,但富含意图信息——视频中的人/机器人都在试图完成某些目标。如果能建模"不同意图下环境如何响应",就能学到通用控制知识。
- method:学习 ICVF 三元函数 V(s, s⁺, z) ≈ φ(s)ᵀ T(z) ψ(s⁺),表示"从状态 s 出发,若按意图 z 行动,未来看到 s⁺ 的概率"。ICVF 声称,如果能学好,则任意下游任务的价值函数 可线性表示为 V(s) ≈ φ(s)ᵀθ。
- 训练:我们在数据集里随机采样 (s, s', s+, sz) 四元组,其中 (s,s') 是两个连续的 state,然后用 ψ 网络得到 z = ψ(sz),按照 V(s, s⁺, z) ≈ φ(s)ᵀ T(z) ψ(s⁺) 来计算 value function,这里是同一个 ψ 网络。然后,进行 TD 更新:minimize r(s) + γV(s', s+, z) - V(s, s+, z) =  - V(s, s+, z),其中 r(s) = 1 当 s = s+。trick:只有 advantage  > 0 时,才进行更新。
- inference:把 T 和 ψ 扔掉,只留 φ 网络作为 state encoder。下游 IQL,把 φ(s) 作为前两层的初始化,再加几层网络学具体任务的价值函数,可以加速 policy 训练。
Become a proficient player with limited data through watching pure videos
- OpenReview:https://openreview.net/forum?id=Sy-o2N0hF4f
- pdf:https://openreview.net/pdf?id=Sy-o2N0hF4f
- 来源:uber 提到的文章,ICLR 2023,茶园 gao yang 老师组的文章。
- setting:我们只有没有标注 action 的 (s,s,s,s) 轨迹,甚至 state 是 pixel-based 的。不过这篇文章好像是 model-based RL,因此没有看。
(PEX) Policy expansion for bridging offline-to-online reinforcement learning
- arxiv:https://arxiv.org/abs/2302.00935
- 来源:uber 用的技术,张崇洁老师组的文章。
- 大意是,我们有 N 个已经学好的 policy,现在我们去 online 学一个 Q 函数,policy 的候选 action 为这 N 个 policy 的 action + 一个新学的 policy 的 action(忘了怎么学的了)。
- 这是一种组合已有 policy 的方法,感觉形式跟 generalized policy improvement(GPI)很像。
Cup: Critic-guided policy reuse
- arxiv:https://arxiv.org/abs/2210.08153
- 来源:uber 提到的技术,张崇洁老师组的文章。

浙公网安备 33010602011771号