论文速读记录 | 2026.02

Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills
TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse
On the Paradoxical Interference between Instruction-Following and Task Solving
Learning to Learn with Contrastive Meta-Objective
Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences
MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
auto-curriculum learning (Jiang et al., 2021b)
Meta-Motivo（Tirinzoni 等人，2025），zero-shot goal-conditioned RL
Unsupervised Skill Discovery via Recurrent Skill Training
Learning to Discover Skills through Guidance
One After Another: Learning Incremental Skills for a Changing World
Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching
Horizon Generalization in Reinforcement Learning
HIQL: Offline Goal-Conditioned RL with Latent States as Actions
Contrastive Preference Learning: Learning from Human Feedback without RL
Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
Rethinking Reward Modeling in Preference-based Large Language Model Alignment
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
Data Center Cooling System Optimization Using Offline Reinforcement Learning
SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
Thinkless: LLM Learns When to Think
Learning to Reason without External Rewards

Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills

来源：EDL 是 skill discovery 的早期工作，ICML 2020。
arxiv：https://arxiv.org/abs/2002.03647
html：https://ar5iv.labs.arxiv.org/html/2002.03647
GitHub：https://github.com/victorcampos7/edl

EDL 跟先前工作一样，希望最大化 s 和 z 之间的互信息 \(I(s;z)\)。EDL 采用 forward MI，即 \(I(s;z) = H(s) - H(s|z)\)。第一项让 EDL 希望最大化 state 的熵，尽可能探索更多 state，而第二项希望给定 z 之后，state 的熵能尽量小，也就是可以通过 z 推断 state。

Explore, Discover and Learn：

Explore：这一阶段的目标是，获取覆盖良好的固定分布 p(s)。如果有 oracle，我们可以采样一个均匀的 p(s)；也可以使用 SMM 方法探索，让 policy 的边际状态分布匹配目标分布，如均匀分布。
Discovery：使用 VQ-VAE 建模 \(q(s|z), ~ q(z|s)\)。VQ-VAE用于处理离散的 skill。
Learn：去学一个 policy \(\pi(a | s,z)\)，intrinsic reward 为 \(r(s,z')=\log q_\phi(s|z')\)，这个形式是从 forward MI 里推出来的，最小化 \(H(s|z)\) 这一项。EDL 使用 PPO 来学这个 policy。
- 我们假设 \(p(s | z)\) 服从高斯分布，但这个假设貌似忽略了迷宫的连通性，比如欧氏距离很近的两个点可能 reward 差不多大，但可能分布在墙的两侧（？）有些问题，会导致性能没那么好。
- 所以，EDL 使用 Sibling Rivalry 技术来跳出局部最优，具体的，维护两个竞争策略 π1, π2，\(r_\text{shaped} = r(s,z) − ϵ · I[\text{other agent reached closer}]\)。或等价实现：给远离目标的状态额外惩罚。这样可以减少策略陷入局部最优的时间，加速 learning。

实验：

EDL 的实验环境是 2D 连续迷宫，评价指标主要使用定性可视化。baseline 是 VIC、DIAYN（reverse MI）和 DADS（forward MI）。EDL 相比先前方法的优势：
- reverse 方法中，策略为了获得高奖励，会倾向于反复访问最初随机探索到的状态，因为这些 state 的 \(H(z | s)\) 更小，而一个随机 state 的 z 可能没有对应，因此 \(H(z | s)\) 比较大。DADS 好像也有相似的问题。
- deepseek 说，这些方法共同的问题是，策略自身产生的状态分布 \(ρ_π(s)\) 来近似目标分布 p(s)，而 EDL 通过引入固定的 p(s) 彻底解决了这个问题。
EDL 使用离散的 skill，所以使用 VQ-VAE。EDL 声称，使用离散 skill 的原因，主要是 reverse MI 方法没法用连续 skill，是为了公平性，而 EDL 框架理论上是可以用连续 skill 的。

图 4：改变 EDL 在 explore 部分的覆盖的区域，可以让后面学到的 skill 只覆盖我们想要的区域。

TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse

来源：Chelsea Finn 出品，关注 value function scaling 问题，跟 seohong park 关注的 Q-learning is not yet scalable 感觉相关。
arxiv：https://arxiv.org/abs/2602.01439
website：https://pd-perry.github.io/transformer-q-learning/

没有读这篇文章，但是 website 写的很清楚，只是把 website 的内容搬过来了。

abstract：

尽管 scaling 驱动了机器学习领域最近的重大进展，强化学习（RL）方法仍然主要使用小型的 value function。盲目扩展值函数，包括使用已知的高度可扩展的 Transformer 架构，通常会导致学习不稳定和性能更差。

在这项工作中，我们提出问题：是什么阻碍了 Transformer 有效地扩展用于值函数？通过实证分析，我们确定了这种扩展中的关键失效模式：随着容量的增加，attention 分数会崩溃。我们的关键洞察是，通过控制 attention 分数的熵，我们可以有效地防止这种崩溃并稳定训练，从而能够使用更大的模型。

为此，我们提出了 Transformer Q-Learning（TQL），这是一种释放 Transformer 在 RL 中学习值函数的 scaling 潜力的方法。我们的方法在从最小网络规模扩展到最大网络规模时，性能提高了高达 43%，而先前的方法则出现了性能下降。

Key Ideas：

🔍 注意力崩溃：我们在使用 Transformer 扩展值函数学习时识别出关键失效模式——随着模型容量的增加，注意力熵会崩溃，导致模型只关注少数几个 token，并产生非平滑的值表面。

🎯 熵引导训练：TQL 引入了每层可学习的温度参数，以控制注意力分数的熵向目标值收敛，防止崩溃并实现大规模稳定训练。

📈 有效扩展：在先前的扩展方法中，平均性能会下降高达 10.6%，而 TQL 从最小的（0.4M）模型扩展到最大的（26M）模型时，性能提升了 43%，展示了持续有效的扩展能力。

On the Paradoxical Interference between Instruction-Following and Task Solving

来源：专家的最新工作。
arxiv：https://arxiv.org/abs/2601.22047
GitHub：https://github.com/kijlk/IF-Interference

主要内容（ai 速读）：

这篇论文发现一个大语言模型（LLM）的反常现象：让模型必须遵循一些它本来就能满足的指令（约束），反而会降低它解决原始任务的能力。比如，模型本来能正确解一道数学题，但如果你加上一条“请分步骤解答”这种它原本回答里就已经做到的约束，它反而可能答错。进而，作者提出了一个叫 SUSTAINSCORE（维持分数）的指标，来量化这种干扰，并在数学、多步问答和代码生成任务上验证了这一现象的普遍性和严重性。

指令遵循（Instruction Following）对任务解决能力（Task Solving）的干扰：

指令遵循：让 LLM 按特定要求做事（比如"用 Python 写"、"分三步回答"）
任务解决：LLM 完成核心任务的能力（比如解数学题、写代码）

核心问题：先前工作没有研究"既要听话又要做题"时，LLM 会不会崩溃。实际上，LLM 可能为了遵守指令，把题做错。

具体的，作者发现一个悖论：LLM 本来能解对题 → 从它的正确答案中提取一个"它已经在遵守的约束" → 把这个约束明确告诉它 → LLM 反而做错

Gap：现有基准测试（如 IFEval）只测"听不听话"，即是否能严格满足给定的格式、长度、关键词等约束，不测"听话后还能不能做对题"。现有评估存在盲点 —— 约束满足和任务成功被混为一谈。

实验设置：

任务：数学推理（GSM8K 等）、多跳问答（HotpotQA 等）、代码生成（HumanEval 等）
约束类型：5 种：方法（怎么解）、长度（多少字）、风格（什么语气）、关键词（必须含/不含某词）、结构（什么格式）
核心指标：SUSTAINSCORE：原本做对的题，加了自明约束后还能做对的比例
模型：从 1.5B 到 235B 参数，包括 Claude-Sonnet-4.5、GPT-4.1、DeepSeek-V3.1 等

关键设定：约束是"自明的"（self-evident）——即从 LLM 自己的正确答案中提取的，确保它本来就会遵守。

核心 method，即 SUSTAINSCORE 的计算框架（图 2）：

收集成功样本：先用模型处理一批任务，只保留它能独立解决正确的任务。
反向生成约束：从这些成功的回答中，自动提取出它已经自然满足的约束（如方法、风格、长度、关键词、结构共五类）。这保证了约束是“自明的”，模型本有能力满足。
添加约束重测：将这些提取出的约束，作为额外要求，重新拼接到原始任务指令中。
计算分数：让模型处理这些“加了自明约束”的新指令，计算其任务正确率。这个正确率就是 SUSTAINSCORE。它直观反映了“加约束”导致的性能下降。

实验结果：

普遍下降：所有模型在添加约束后，任务性能都显著下降。即使是 Claude-Sonnet-4.5 这样的顶尖模型，在多跳 QA 任务上也只维持了 85% 的原有性能。
代码任务最脆弱：代码生成任务性能下降最剧烈，许多模型性能保持率低于 60%。
传统高指标不意味着鲁棒：有些模型在传统指令遵循（IF）和任务准确率（Accuracy）上得分很高，但 SUSTAINSCORE 很低，说明它们不善于在约束下维持任务能力。
原因分析：通过 attention 分析发现，失败案例比成功案例对约束部分投入了显著更多的注意力，这可能是约束干扰核心推理的原因。
约束数量效应：前 5 个约束造成主要伤害，之后趋于平稳（图3）
训练策略影响：初步实验表明，基于强化学习（RL）对齐的模型，在维持性能鲁棒性上，可能优于仅在长链思维数据上做监督微调（SFT-LongCoT）的模型。

Learning to Learn with Contrastive Meta-Objective

来源：无意中看到的，NeurIPS 2025 oral。
arxiv：https://arxiv.org/abs/2410.05975

（还没读。这篇文章看起来比较古典，做的是传统 ML，并不是做 llm 的。
（这个东西能用在 llm 上吗？现在看到一个东西，就会想它能否用在 llm 上

Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences

来源：无意中搜到的。ICRA 2025。
arxiv：https://arxiv.org/abs/2409.07268
GitHub：https://github.com/FeiCuiLengMMbb/paper_MTPL
好奇是不是 multi-type + PbRL。

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

arxiv：https://arxiv.org/abs/2006.08170
来源：合作者说有趣的 skill + meta-RL 论文，ICML 2021。

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

arxiv：https://arxiv.org/abs/2505.03335
来源：neurips 2025 best paper 的一作 yue yang 的 NeurIPS 2025 spotlight 工作。被题目吸引住了，单纯好奇，想读一读。

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery

arxiv：https://arxiv.org/abs/2202.00161
来源：想起来，想看一下。

auto-curriculum learning (Jiang et al., 2021b)

来源：RSD。似乎可以做自动 curriculum learning，或许是有启发性的。

Meta-Motivo（Tirinzoni 等人，2025），zero-shot goal-conditioned RL

来源：RGSD。可能包含一个技能库，也想看。速读一下就行。

Unsupervised Skill Discovery via Recurrent Skill Training

来源：合作者推荐的 skill discovery 先前工作。

Learning to Discover Skills through Guidance

来源：同上。

One After Another: Learning Incremental Skills for a Changing World

来源：同上。

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching

来源：同上。

Horizon Generalization in Reinforcement Learning

arxiv：https://arxiv.org/abs/2501.02709
website：https://horizon-generalization.github.io/
来源：Benjamin Eysenbach 的新作，是一篇 arxiv paper，同学说有趣。

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

arxiv：https://arxiv.org/abs/2307.11949
website：https://seohong.me/projects/hiql/
来源：合作者推荐的文章，好像也是 Benjamin Eysenbach 发表的。

Contrastive Preference Learning: Learning from Human Feedback without RL

arxiv：https://arxiv.org/abs/2310.13639
GitHub：https://github.com/jhejna/cpl
来源：无意中搜到的文章，ICLR 2024，好像之前读过。
主要内容：

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

arxiv：https://arxiv.org/abs/2502.08985
来源：同学的最新工作。
主要内容：
- 这篇文章关注的 setting 是 offline multi-task MARL；特别的，agent 只在（比如说）三个人合作的场景上训练，然后就可以泛化到任意多个人合作的场景。同学讲的故事是，用 transformer 作为一个翻译器，把三个人的合作动作翻译为多个人的，感觉这个故事听起来非常好。

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

arxiv：https://arxiv.org/abs/2411.04991
OpenReview：https://openreview.net/forum?id=rfdblE10qm
来源：ICLR 2025 oral。
主要内容：
- 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model，而是直接训一个分类器，学习一个 (x,y) 是好的还剩坏的，然后使用分类器的概率 logit 作为 RLHF 的 reward。
- 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\)，而非把成对比较 \((x, y^+, y^-)\) 打乱（？）
- 实验是否过于 toy（？）理论大概说了什么（？）

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

arxiv：https://arxiv.org/abs/2410.05527
open review：https://openreview.net/forum?id=2iYVBqRHK4
来源：合作者推荐的文章。
主要内容：
- preference-based index policy（？）
whittle index，一个结论，两个等价条件，经典问题的证明方式。

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

来源：师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

arxiv：https://arxiv.org/pdf/2501.15085
来源：xianyuan zhan 组的新文章。
主要内容：
- T-symmetry。

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

arxiv：https://arxiv.org/abs/2407.04752
来源：师兄推荐的神秘文章，ICLR 2025 poster。

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

arxiv：https://arxiv.org/abs/2410.23680
来源：偶然看到的文章。

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

arxiv：https://arxiv.org/abs/2505.21067
来源：偶然看到的文章。

Thinkless: LLM Learns When to Think

arxiv：https://arxiv.org/abs/2505.13379
来源：偶然看到的文章。

Learning to Reason without External Rewards

arxiv：https://arxiv.org/abs/2505.19590
来源：偶然看到的文章。

posted @ 2026-02-03 08:50 MoonOut 阅读(53) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙