论文速读记录 | 2025.12（2）

Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning
一些 labeled data / expert demo + unlabeled data 的 offline RL 工作
Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning
(U2O RL) Unsupervised-to-Online Reinforcement Learning
(HILP) Foundation policies with hilbert representations
Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning
Parrot: Data-driven behavioral priors for reinforcement learning
(ICVF) Reinforcement learning from passive data via latent intentions
Become a proficient player with limited data through watching pure videos
(PEX) Policy expansion for bridging offline-to-online reinforcement learning
Cup: Critic-guided policy reuse

Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning

arxiv：https://arxiv.org/abs/2302.08738
来源：无意中看到的，AAAI 2023。
主要内容：为 PbRL 提出两种无监督 / 自监督技术，来 online 地利用 unlabelled data。1. 认为所有 unlabelled segment 都是人类喜欢的，并将 [R1 R2 ... RH] 作为奖励向量，通过神秘的 triplet loss 进行对比学习；2. 鼓励 reward model 中 state 的 embedding（没有细看这是什么）之间的距离满足 temporal distance，使用 MSE loss 来做。
没有细读。

一些 labeled data / expert demo + unlabeled data 的 offline RL 工作

除了 CDS UDS 之外，还有：
The Provable Benefits of Unsupervised Data Sharing for Offline Reinforcement Learning，https://arxiv.org/abs/2302.13493 ，ICLR 2023，师兄的工作。好像很理论，没有看。
CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning，https://arxiv.org/abs/2104.07749 ，CoRL 2023：
- 校准潜在空间（Calibrated Latent Guidance）：用 CVAE 学习 state-action 的潜在表示，但通过关键正则化强制所有专家数据嵌入坍缩到原点（均值 / 方差 ≈ 0）。这样，专家行为在潜在空间被"绑"成单点，任意样本与它的距离天然构成任务导向的内在奖励 —— 越像专家，奖励越高。无需对抗、无需时序建模，距离即奖励。
- 🥑 这篇文章也希望在 latent space 里面，用 latent space 里的距离来标 reward。
- 看起来没有理论，感觉是纯启发式的。
Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories，https://arxiv.org/abs/2210.06518 ，ICML 2023：
- setting：纯 offline，数据集有 (s,a,r,s,a,r) 和 (s,r,s,r) 两种，并且数据集质量参差不齐。
- 做的事情好像很简单，就是使用了一个 inverse dynamic model（IDM），输入 s r 输出 action，但使用的是什么多步 IDM，作者声称可以建模 non-markov 策略，并且处理参差不齐的数据质量。
- 看起来只有支持性的理论，没有那种证明收敛或者 bound 的理论（不确定，没仔细看）。

Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning

arxiv：https://arxiv.org/abs/2201.13425
来源：ICLR 2022 年的 workshop。
主要内容：现在 offline rl 算法为了应对 distributional shift 问题，已经过度设计了（如 CQL、IQL 这些），但是如果 offline 数据集涵盖的分布足够广，这篇文章证明普通的 off-policy 算法就也能使用。为此，这篇文章先使用多种无监督 online 探索方法，收集一大批随机数据集，然后把这些数据集对每个下游 task 都标上相应的 reward，去做 Vanilla TD3，实验结果证明性能很好。
感觉是有趣的工作。

(U2O RL) Unsupervised-to-Online Reinforcement Learning

arxiv：https://arxiv.org/abs/2408.14785
来源：ICLR 2025 投稿。作者是 Junsu Kim1, Seohong Park, Sergey Levine。
主要内容：故事是，就像 LLM 先用海量无标签文本预训练再微调一样，RL也应该先用无监督方式，从多样化的 offline 数据中学习通用技能，而不是一上来就盯着单个任务。
method：用 HILP 算法训练技能策略 → 用少量带奖励数据做 metra 内积 reward 形式的线性回归，找到最优技能向量 z → 对于这个 z 进行 online 策略微调。

(HILP) Foundation policies with hilbert representations

arxiv：https://arxiv.org/abs/2402.15567
website：https://seohong.me/projects/hilp/
来源：ICML 2024，offline metra，Seohong Park 的工作。
主要内容：想使用数据质量参差不齐的 offline data 训练一个“foundation policy”，使其能做 zero-shot RL、GCRL 和 hierarchical RL。
现有方法的问题：HILP 声称 bc 依赖高质量数据，GCRL 只能学到如何到达目标，而 unsupervised skill discovery（如果有 offline 版本的话）学到的 skill 质量不够高。
method：
几乎完全使用 metra 架构。学基于 temporal distance 的 state embedding \(\phi(s) - \phi(g) \approx d_t(s,g)\)，然后利用 GCRL 结论：最优时序距离 = 负的 V(s,g) 价值函数，使用 state embedding \(\phi(s)\) 来参数化 value function，用 IQL 的 expectile 回归 \(\ell^2_\tau\) 学这个 \(\phi(s)\)：
\[\mathcal{L}_\phi = \mathbb{E}\left[\ell_\tau^2\big(-\mathbb{1}(s\neq g) - \gamma\|\bar{\phi}(s') - \bar{\phi}(g)\| + \|\phi(s) - \phi(g)\|\big)\right] \]
然后，在学好 phi 之后（HILP 似乎是两阶段的），使用 metra 的内积 reward，\(r(s,a,s') = [\phi(s') - \phi(s)]^T z\) ，z 是随机采样的单位向量，代表一个方向。使用 IQL（又使用 IQL）最大化这个内积 reward，训练 \(\pi(a | s,z)\)。
对于 zero-shot RL，可以直接通过对内积 reward 做线性回归，推断出最优的方向 z。对于 goal-conditioned RL，给定一个 goal g，z 的方向会是 \(\phi(g) - \phi(s)\)。这个形式还是跟 metra 一样好，metra 真好…
思考，为什么要用 φ(s) 学 V(s,a)，而不是直接学一个 Q(s,a,g)：或许 phi 空间可以带来更强的行为多样性和泛化能力，让我们所能达到的 goal 不局限于数据集中出现的 state。并且，（在某种程度上）以自然的方式实现了下一篇 actionable models 里的 goal chaining 插值，把两个行为拼起来达成一个大目标。此外，phi 空间在某种程度上是 task 无关的，可能耦合的行为策略信息比较少（这条是 kimi 说的，我也不确定）。
细节：1. Reward centering：实验发现用 \(r = \langle \phi(s') - \bar{\phi}, z \rangle\)（减均值）在 zero-shot RL 上更稳定。2. Expectile τ：φ 训练用 τ = 0.5 ~ 0.9（控制乐观程度），π训练用τ = 0.7 ~ 0.9。3. 折扣因子 γ：φ 用 γ<1（近似时序距离），π 用 γ=0.99 标准 RL。
实验：

任务类型	Benchmark	环境	数据构成	输入/输出
Zero-shot RL	ExORL	Walker / Cheetah / Quadruped / Jaco	APS / APT / Proto / RND 收集的 500 万步无标签轨迹	输入：状态（或 64×64×3 像素）测试指令：新奖励函数输出：最大化该奖励的动作
Goal-conditioned RL	D4RL	AntMaze-Large / Ultra, Kitchen-Partial / Mixed	1000 条导航 / 操纵轨迹	输入：当前状态 + 目标状态 (g) 测试指令：目标坐标或物体状态输出：到达目标的动作
Hierarchical RL	D4RL	AntMaze / Kitchen（同上）	同上	高层输入：状态高层输出：技能z 底层输入：(s,z) 底层输出：原子动作

Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills

arxiv：https://arxiv.org/abs/2104.07749
来源：ICML 2021。
主要内容：setting 似乎仍然是 GCRL，学一个 \(\pi(a | s,sPg)\)，其中 state 都是 pixel-based image。
method 是去学一个保守的 goal-conditioned Q 函数，使用经典的 goal-conditioned 监督学习。loss 是 minimize (Q(s,a,g) - y)² + (Q(s,ã,g) - 0)²，其中正样本 (s,a,g) 来源于一个 segment，g 是 segment 的最后一个 state，ã 负样本是在动作空间采样的没见过的动作。
然而这样可能会导致，agent 只能学到（比如说）抓取放置这种小的动作片段，而无法解决 long-horizon 的问题 pick-and-place 问题，因为数据集里没有一个完整的 pick-and-place 数据。这篇文章使用目标链（Goal Chaining）技术，minimize (Q(s,a,g) - Q(s',a',g))² ，其中 (s,a,s',a') 在同一个 segment 里，(s',a') 是这个 segment 的最后一个 state-action。感觉是巧妙的。
有一个 baseline 是 GCBC，应该是 goal-conditioned behavior cloning。好像从哪里看过，这是一个意外简洁又好用的方法，看起来这个 baseline 在这篇的实验里也能 work 一些；而纯 HER + off-policy / offline RL 失败了，可能因为不是监督学习（）

OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning

arxiv：https://arxiv.org/abs/2010.13611
来源：uber 的 baseline，ICLR 2021。
主要内容：离线提取时序原语 → 在潜空间做离线 RL，两阶段全离线。
用 VAE 学习持续 c 步的连续原语，但关键改进是使用 KL 约束，让编码器靠近初始状态预测器而非目标状态，防止退化解，如所有 z 学成一个策略（没细看）。
将 c 步动作压缩成一个潜变量 z，上层 action 去选 z。这应该就是师兄讲过的工作，有效 horizon 从 T 缩短到 T/c，offline RL 的 bootstrap 误差传播被指数级抑制。opal 应该有相关理论。

Parrot: Data-driven behavioral priors for reinforcement learning

arxiv：https://arxiv.org/abs/2011.10024
website：https://sites.google.com/view/parrot-rl
来源：uber 的 baseline，ICLR 2021 oral。
主要内容：这一篇又在讲预训练故事。声称 VAE 等方法学到的 latent space，会导致"锁死"动作空间，无法保留尝试全新行为的能力，无法处理训练数据未覆盖的关键动作。
用 Normalizing Flows 学习可逆的行为先验。latent space 这样学：在 50K 条无奖励的旧任务轨迹上（这个数据集的质量可能要稍微高一些，不能用 random），训练条件 Real NVP 模型 z = f⁻¹(a; s)，将复杂动作分布映射到标准高斯噪声。然后，最大化条件对数似然 log p(a|s)，使用 CNN 编码图像 s 作为条件。目标是：给定状态 s，从标准高斯采样 z，能生成数据中"合理"的动作 a。
没有仔细看。

(ICVF) Reinforcement learning from passive data via latent intentions

arxiv：https://arxiv.org/abs/2304.04782
website：https://dibyaghosh.com/icvf/
来源：uber 提到的文章，ICML 2023，是 RL 方向的 oral poster（不知道 oral poster 是什么机制）。
setting：我们只有没有标注 action 的 (s,s,s,s) 轨迹，甚至 state 是 pixel-based 的，ICVF 把这个叫做“被动数据”。ICVF 希望设计一个预训练框架，先在大规模被动数据上学习状态表示（state representation），再在小规模主动数据（有动作和奖励）上快速学会完成具体任务。
curl 等用对比学习的方法，也是学 pixel-based 数据的 representation，但 ICVF 说 curl 只能学 vision 信息，对控制任务帮助有限。
motivation：被动数据虽然缺动作和奖励，但富含意图信息——视频中的人/机器人都在试图完成某些目标。如果能建模"不同意图下环境如何响应"，就能学到通用控制知识。
method：学习 ICVF 三元函数 V(s, s⁺, z) ≈ φ(s)ᵀ T(z) ψ(s⁺)，表示"从状态 s 出发，若按意图 z 行动，未来看到 s⁺ 的概率"。ICVF 声称，如果能学好，则任意下游任务的价值函数可线性表示为 V(s) ≈ φ(s)ᵀθ。
训练：我们在数据集里随机采样 (s, s', s+, sz) 四元组，其中 (s,s') 是两个连续的 state，然后用 ψ 网络得到 z = ψ(sz)，按照 V(s, s⁺, z) ≈ φ(s)ᵀ T(z) ψ(s⁺) 来计算 value function，这里是同一个 ψ 网络。然后，进行 TD 更新：minimize r(s) + γV(s', s+, z) - V(s, s+, z) = Â - V(s, s+, z)，其中 r(s) = 1 当 s = s+。trick：只有 advantage Â > 0 时，才进行更新。
inference：把 T 和 ψ 扔掉，只留 φ 网络作为 state encoder。下游 IQL,把 φ(s) 作为前两层的初始化，再加几层网络学具体任务的价值函数，可以加速 policy 训练。

Become a proficient player with limited data through watching pure videos

OpenReview：https://openreview.net/forum?id=Sy-o2N0hF4f
pdf：https://openreview.net/pdf?id=Sy-o2N0hF4f
来源：uber 提到的文章，ICLR 2023，茶园 gao yang 老师组的文章。
setting：我们只有没有标注 action 的 (s,s,s,s) 轨迹，甚至 state 是 pixel-based 的。不过这篇文章好像是 model-based RL，因此没有看。

(PEX) Policy expansion for bridging offline-to-online reinforcement learning

arxiv：https://arxiv.org/abs/2302.00935
来源：uber 用的技术，张崇洁老师组的文章。
大意是，我们有 N 个已经学好的 policy，现在我们去 online 学一个 Q 函数，policy 的候选 action 为这 N 个 policy 的 action + 一个新学的 policy 的 action（忘了怎么学的了）。
这是一种组合已有 policy 的方法，感觉形式跟 generalized policy improvement（GPI）很像。

Cup: Critic-guided policy reuse

arxiv：https://arxiv.org/abs/2210.08153
来源：uber 提到的技术，张崇洁老师组的文章。

posted @ 2025-12-20 23:30 MoonOut 阅读(73) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

论文速读记录 | 2025.12（2）

Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning

一些 labeled data / expert demo + unlabeled data 的 offline RL 工作

Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning

(U2O RL) Unsupervised-to-Online Reinforcement Learning

(HILP) Foundation policies with hilbert representations

Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills

OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning

Parrot: Data-driven behavioral priors for reinforcement learning

(ICVF) Reinforcement learning from passive data via latent intentions

Become a proficient player with limited data through watching pure videos

(PEX) Policy expansion for bridging offline-to-online reinforcement learning

Cup: Critic-guided policy reuse

公告