论文速读记录 | 2025.12(2)




Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2302.08738
  • 来源:无意中看到的,AAAI 2023。
  • 主要内容:为 PbRL 提出两种无监督 / 自监督技术,来 online 地利用 unlabelled data。1. 认为所有 unlabelled segment 都是人类喜欢的,并将 [R1 R2 ... RH] 作为奖励向量,通过神秘的 triplet loss 进行对比学习;2. 鼓励 reward model 中 state 的 embedding(没有细看这是什么)之间的距离满足 temporal distance,使用 MSE loss 来做。
  • 没有细读。

一些 labeled data / expert demo + unlabeled data 的 offline RL 工作

  • 除了 CDS UDS 之外,还有:
  • The Provable Benefits of Unsupervised Data Sharing for Offline Reinforcement Learning,https://arxiv.org/abs/2302.13493 ,ICLR 2023,师兄的工作。好像很理论,没有看。
  • CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning,https://arxiv.org/abs/2104.07749 ,CoRL 2023:
    • 校准潜在空间(Calibrated Latent Guidance):用 CVAE 学习 state-action 的潜在表示,但通过关键正则化强制所有专家数据嵌入坍缩到原点(均值 / 方差 ≈ 0)。这样,专家行为在潜在空间被"绑"成单点,任意样本与它的距离天然构成任务导向的内在奖励 —— 越像专家,奖励越高。无需对抗、无需时序建模,距离即奖励。
    • 🥑 这篇文章也希望在 latent space 里面,用 latent space 里的距离来标 reward。
    • 看起来没有理论,感觉是纯启发式的。
  • Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories,https://arxiv.org/abs/2210.06518 ,ICML 2023:
    • setting:纯 offline,数据集有 (s,a,r,s,a,r) 和 (s,r,s,r) 两种,并且数据集质量参差不齐。
    • 做的事情好像很简单,就是使用了一个 inverse dynamic model(IDM),输入 s r 输出 action,但使用的是什么多步 IDM,作者声称可以建模 non-markov 策略,并且处理参差不齐的数据质量。
    • 看起来只有支持性的理论,没有那种证明收敛或者 bound 的理论(不确定,没仔细看)。

Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2201.13425
  • 来源:ICLR 2022 年的 workshop。
  • 主要内容:现在 offline rl 算法为了应对 distributional shift 问题,已经过度设计了(如 CQL、IQL 这些),但是如果 offline 数据集涵盖的分布足够广,这篇文章证明普通的 off-policy 算法就也能使用。为此,这篇文章先使用多种无监督 online 探索方法,收集一大批随机数据集,然后把这些数据集对每个下游 task 都标上相应的 reward,去做 Vanilla TD3,实验结果证明性能很好。
  • 感觉是有趣的工作。

(U2O RL) Unsupervised-to-Online Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2408.14785
  • 来源:ICLR 2025 投稿。作者是 Junsu Kim1, Seohong Park, Sergey Levine。
  • 主要内容:故事是,就像 LLM 先用海量无标签文本预训练 再微调一样,RL也应该先用无监督方式,从多样化的 offline 数据中学习通用技能,而不是一上来就盯着单个任务。
  • method:用 HILP 算法训练技能策略 → 用少量带奖励数据做 metra 内积 reward 形式的线性回归,找到最优技能向量 z → 对于这个 z 进行 online 策略微调。

(HILP) Foundation policies with hilbert representations

  • arxiv:https://arxiv.org/abs/2402.15567
  • website:https://seohong.me/projects/hilp/
  • 来源:ICML 2024,offline metra,Seohong Park 的工作。
  • 主要内容:想使用数据质量参差不齐的 offline data 训练一个“foundation policy”,使其能做 zero-shot RL、GCRL 和 hierarchical RL。
  • 现有方法的问题:HILP 声称 bc 依赖高质量数据,GCRL 只能学到如何到达目标,而 unsupervised skill discovery(如果有 offline 版本的话)学到的 skill 质量不够高。
  • method:
  • 几乎完全使用 metra 架构。学基于 temporal distance 的 state embedding \(\phi(s) - \phi(g) \approx d_t(s,g)\),然后利用 GCRL 结论:最优时序距离 = 负的 V(s,g) 价值函数,使用 state embedding \(\phi(s)\) 来参数化 value function,用 IQL 的 expectile 回归 \(\ell^2_\tau\) 学这个 \(\phi(s)\)

    \[\mathcal{L}_\phi = \mathbb{E}\left[\ell_\tau^2\big(-\mathbb{1}(s\neq g) - \gamma\|\bar{\phi}(s') - \bar{\phi}(g)\| + \|\phi(s) - \phi(g)\|\big)\right] \]

  • 然后,在学好 phi 之后(HILP 似乎是两阶段的),使用 metra 的内积 reward,\(r(s,a,s') = [\phi(s') - \phi(s)]^T z\) ,z 是随机采样的单位向量,代表一个方向。使用 IQL(又使用 IQL)最大化这个内积 reward,训练 \(\pi(a | s,z)\)
  • 对于 zero-shot RL,可以直接通过对内积 reward 做线性回归,推断出最优的方向 z。对于 goal-conditioned RL,给定一个 goal g,z 的方向会是 \(\phi(g) - \phi(s)\)。这个形式还是跟 metra 一样好,metra 真好…
  • 思考,为什么要用 φ(s) 学 V(s,a),而不是直接学一个 Q(s,a,g):或许 phi 空间可以带来更强的行为多样性和泛化能力,让我们所能达到的 goal 不局限于数据集中出现的 state。并且,(在某种程度上)以自然的方式实现了下一篇 actionable models 里的 goal chaining 插值,把两个行为拼起来达成一个大目标。此外,phi 空间在某种程度上是 task 无关的,可能耦合的行为策略信息比较少(这条是 kimi 说的,我也不确定)。
  • 细节:1. Reward centering:实验发现用 \(r = \langle \phi(s') - \bar{\phi}, z \rangle\)(减均值)在 zero-shot RL 上更稳定。2. Expectile τ:φ 训练用 τ = 0.5 ~ 0.9(控制乐观程度),π训 练用τ = 0.7 ~ 0.9。3. 折扣因子 γ:φ 用 γ<1(近似时序距离),π 用 γ=0.99 标准 RL。
  • 实验:
任务类型 Benchmark 环境 数据构成 输入/输出
Zero-shot RL ExORL Walker / Cheetah / Quadruped / Jaco APS / APT / Proto / RND 收集的 500 万步无标签轨迹 输入:状态(或 64×64×3 像素)
测试指令:新奖励函数
输出:最大化该奖励的动作
Goal-conditioned RL D4RL AntMaze-Large / Ultra, Kitchen-Partial / Mixed 1000 条导航 / 操纵轨迹 输入:当前状态 + 目标状态 (g)
测试指令:目标坐标或物体状态
输出:到达目标的动作
Hierarchical RL D4RL AntMaze / Kitchen(同上) 同上 高层输入:状态
高层输出:技能z
底层输入:(s,z)
底层输出:原子动作

Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills

  • arxiv:https://arxiv.org/abs/2104.07749
  • 来源:ICML 2021。
  • 主要内容:setting 似乎仍然是 GCRL,学一个 \(\pi(a | s,sPg)\),其中 state 都是 pixel-based image。
  • method 是去学一个保守的 goal-conditioned Q 函数,使用经典的 goal-conditioned 监督学习。loss 是 minimize (Q(s,a,g) - y)² + (Q(s,ã,g) - 0)²,其中正样本 (s,a,g) 来源于一个 segment,g 是 segment 的最后一个 state,ã 负样本是在动作空间采样的 没见过的动作。
  • 然而这样可能会导致,agent 只能学到(比如说)抓取 放置 这种小的动作片段,而无法解决 long-horizon 的问题 pick-and-place 问题,因为数据集里没有一个完整的 pick-and-place 数据。这篇文章使用目标链(Goal Chaining)技术,minimize (Q(s,a,g) - Q(s',a',g))² ,其中 (s,a,s',a') 在同一个 segment 里,(s',a') 是这个 segment 的最后一个 state-action。感觉是巧妙的。
  • 有一个 baseline 是 GCBC,应该是 goal-conditioned behavior cloning。好像从哪里看过,这是一个意外简洁又好用的方法,看起来这个 baseline 在这篇的实验里也能 work 一些;而纯 HER + off-policy / offline RL 失败了,可能因为不是监督学习()

OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2010.13611
  • 来源:uber 的 baseline,ICLR 2021。
  • 主要内容:离线提取时序原语 → 在潜空间做离线 RL,两阶段全离线。
  • 用 VAE 学习持续 c 步的连续原语,但关键改进是使用 KL 约束,让编码器靠近初始状态预测器 而非目标状态,防止退化解,如所有 z 学成一个策略(没细看)。
  • 将 c 步动作压缩成一个潜变量 z,上层 action 去选 z。这应该就是师兄讲过的工作,有效 horizon 从 T 缩短到 T/c,offline RL 的 bootstrap 误差传播被指数级抑制。opal 应该有相关理论。

Parrot: Data-driven behavioral priors for reinforcement learning

  • arxiv:https://arxiv.org/abs/2011.10024
  • website:https://sites.google.com/view/parrot-rl
  • 来源:uber 的 baseline,ICLR 2021 oral。
  • 主要内容:这一篇又在讲预训练故事。声称 VAE 等方法学到的 latent space,会导致"锁死"动作空间,无法保留尝试全新行为的能力,无法处理训练数据未覆盖的关键动作。
  • 用 Normalizing Flows 学习可逆的行为先验。latent space 这样学:在 50K 条无奖励的旧任务轨迹上(这个数据集的质量可能要稍微高一些,不能用 random),训练条件 Real NVP 模型 z = f⁻¹(a; s),将复杂动作分布映射到标准高斯噪声。然后,最大化条件对数似然 log p(a|s),使用 CNN 编码图像 s 作为条件。目标是:给定状态 s,从标准高斯采样 z,能生成数据中"合理"的动作 a。
  • 没有仔细看。

(ICVF) Reinforcement learning from passive data via latent intentions

  • arxiv:https://arxiv.org/abs/2304.04782
  • website:https://dibyaghosh.com/icvf/
  • 来源:uber 提到的文章,ICML 2023,是 RL 方向的 oral poster(不知道 oral poster 是什么机制)。
  • setting:我们只有没有标注 action 的 (s,s,s,s) 轨迹,甚至 state 是 pixel-based 的,ICVF 把这个叫做“被动数据”。ICVF 希望设计一个预训练框架,先在大规模被动数据上学习状态表示(state representation),再在小规模主动数据(有动作和奖励)上快速学会完成具体任务。
  • curl 等用对比学习的方法,也是学 pixel-based 数据的 representation,但 ICVF 说 curl 只能学 vision 信息,对控制任务帮助有限。
  • motivation:被动数据虽然缺动作和奖励,但富含意图信息——视频中的人/机器人都在试图完成某些目标。如果能建模"不同意图下环境如何响应",就能学到通用控制知识。
  • method:学习 ICVF 三元函数 V(s, s⁺, z) ≈ φ(s)ᵀ T(z) ψ(s⁺),表示"从状态 s 出发,若按意图 z 行动,未来看到 s⁺ 的概率"。ICVF 声称,如果能学好,则任意下游任务的价值函数 可线性表示为 V(s) ≈ φ(s)ᵀθ。
  • 训练:我们在数据集里随机采样 (s, s', s+, sz) 四元组,其中 (s,s') 是两个连续的 state,然后用 ψ 网络得到 z = ψ(sz),按照 V(s, s⁺, z) ≈ φ(s)ᵀ T(z) ψ(s⁺) 来计算 value function,这里是同一个 ψ 网络。然后,进行 TD 更新:minimize r(s) + γV(s', s+, z) - V(s, s+, z) =  - V(s, s+, z),其中 r(s) = 1 当 s = s+。trick:只有 advantage  > 0 时,才进行更新。
  • inference:把 T 和 ψ 扔掉,只留 φ 网络作为 state encoder。下游 IQL,把 φ(s) 作为前两层的初始化,再加几层网络学具体任务的价值函数,可以加速 policy 训练。

Become a proficient player with limited data through watching pure videos

(PEX) Policy expansion for bridging offline-to-online reinforcement learning

  • arxiv:https://arxiv.org/abs/2302.00935
  • 来源:uber 用的技术,张崇洁老师组的文章。
  • 大意是,我们有 N 个已经学好的 policy,现在我们去 online 学一个 Q 函数,policy 的候选 action 为这 N 个 policy 的 action + 一个新学的 policy 的 action(忘了怎么学的了)。
  • 这是一种组合已有 policy 的方法,感觉形式跟 generalized policy improvement(GPI)很像。

Cup: Critic-guided policy reuse



posted @ 2025-12-20 23:30  MoonOut  阅读(73)  评论(0)    收藏  举报