论文速读记录 | 2026.02
- Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills
- TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse
- On the Paradoxical Interference between Instruction-Following and Task Solving
- Learning to Learn with Contrastive Meta-Objective
- Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences
- MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration
- Absolute Zero: Reinforced Self-play Reasoning with Zero Data
- CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
- auto-curriculum learning (Jiang et al., 2021b)
- Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL
- Unsupervised Skill Discovery via Recurrent Skill Training
- Learning to Discover Skills through Guidance
- One After Another: Learning Incremental Skills for a Changing World
- Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching
- Horizon Generalization in Reinforcement Learning
- HIQL: Offline Goal-Conditioned RL with Latent States as Actions
- Contrastive Preference Learning: Learning from Human Feedback without RL
- Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
- Rethinking Reward Modeling in Preference-based Large Language Model Alignment
- DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
- Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
- Data Center Cooling System Optimization Using Offline Reinforcement Learning
- SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
- Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
- Thinkless: LLM Learns When to Think
- Learning to Reason without External Rewards
Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills
- 来源:EDL 是 skill discovery 的早期工作,ICML 2020。
- arxiv:https://arxiv.org/abs/2002.03647
- html:https://ar5iv.labs.arxiv.org/html/2002.03647
- GitHub:https://github.com/victorcampos7/edl
EDL 跟先前工作一样,希望最大化 s 和 z 之间的互信息 \(I(s;z)\)。EDL 采用 forward MI,即 \(I(s;z) = H(s) - H(s|z)\)。第一项让 EDL 希望最大化 state 的熵,尽可能探索更多 state,而第二项希望给定 z 之后,state 的熵能尽量小,也就是可以通过 z 推断 state。
Explore, Discover and Learn:
- Explore:这一阶段的目标是,获取覆盖良好的固定分布 p(s)。如果有 oracle,我们可以采样一个均匀的 p(s);也可以使用 SMM 方法探索,让 policy 的边际状态分布匹配目标分布,如均匀分布。
- Discovery:使用 VQ-VAE 建模 \(q(s|z), ~ q(z|s)\)。VQ-VAE用于处理离散的 skill。
- Learn:去学一个 policy \(\pi(a | s,z)\),intrinsic reward 为 \(r(s,z')=\log q_\phi(s|z')\),这个形式是从 forward MI 里推出来的,最小化 \(H(s|z)\) 这一项。EDL 使用 PPO 来学这个 policy。
- 我们假设 \(p(s | z)\) 服从高斯分布,但这个假设貌似忽略了迷宫的连通性,比如欧氏距离很近的两个点可能 reward 差不多大,但可能分布在墙的两侧(?)有些问题,会导致性能没那么好。
- 所以,EDL 使用 Sibling Rivalry 技术来跳出局部最优,具体的,维护两个竞争策略 π1, π2,\(r_\text{shaped} = r(s,z) − ϵ · I[\text{other agent reached closer}]\)。或等价实现:给远离目标的状态额外惩罚。这样可以减少策略陷入局部最优的时间,加速 learning。
实验:
- EDL 的实验环境是 2D 连续迷宫,评价指标主要使用定性可视化。baseline 是 VIC、DIAYN(reverse MI)和 DADS(forward MI)。EDL 相比先前方法的优势:
- reverse 方法中,策略为了获得高奖励,会倾向于反复访问 最初随机探索到的状态,因为这些 state 的 \(H(z | s)\) 更小,而一个随机 state 的 z 可能没有对应,因此 \(H(z | s)\) 比较大。DADS 好像也有相似的问题。
- deepseek 说,这些方法共同的问题是,策略自身产生的状态分布 \(ρ_π(s)\) 来近似目标分布 p(s),而 EDL 通过引入固定的 p(s) 彻底解决了这个问题。
- EDL 使用离散的 skill,所以使用 VQ-VAE。EDL 声称,使用离散 skill 的原因,主要是 reverse MI 方法没法用连续 skill,是为了公平性,而 EDL 框架理论上是可以用连续 skill 的。
图 4:改变 EDL 在 explore 部分的覆盖的区域,可以让后面学到的 skill 只覆盖我们想要的区域。
TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse
- 来源:Chelsea Finn 出品,关注 value function scaling 问题,跟 seohong park 关注的 Q-learning is not yet scalable 感觉相关。
- arxiv:https://arxiv.org/abs/2602.01439
- website:https://pd-perry.github.io/transformer-q-learning/
没有读这篇文章,但是 website 写的很清楚,只是把 website 的内容搬过来了。
abstract:
- 尽管 scaling 驱动了机器学习领域最近的重大进展,强化学习(RL)方法仍然主要使用小型的 value function。盲目扩展值函数,包括使用已知的高度可扩展的 Transformer 架构,通常会导致学习不稳定和性能更差。
- 在这项工作中,我们提出问题:是什么阻碍了 Transformer 有效地扩展用于值函数?通过实证分析,我们确定了这种扩展中的关键失效模式:随着容量的增加,attention 分数会崩溃。我们的关键洞察是,通过控制 attention 分数的熵,我们可以有效地防止这种崩溃并稳定训练,从而能够使用更大的模型。
- 为此,我们提出了 Transformer Q-Learning(TQL),这是一种释放 Transformer 在 RL 中学习值函数的 scaling 潜力的方法。我们的方法在从最小网络规模扩展到最大网络规模时,性能提高了高达 43%,而先前的方法则出现了性能下降。
Key Ideas:
- 🔍 注意力崩溃:我们在使用 Transformer 扩展值函数学习时识别出关键失效模式——随着模型容量的增加,注意力熵会崩溃,导致模型只关注少数几个 token,并产生非平滑的值表面。
- 🎯 熵引导训练:TQL 引入了每层可学习的温度参数,以控制注意力分数的熵向目标值收敛,防止崩溃并实现大规模稳定训练。
- 📈 有效扩展:在先前的扩展方法中,平均性能会下降高达 10.6%,而 TQL 从最小的(0.4M)模型扩展到最大的(26M)模型时,性能提升了 43%,展示了持续有效的扩展能力。
On the Paradoxical Interference between Instruction-Following and Task Solving
- 来源:专家的最新工作。
- arxiv:https://arxiv.org/abs/2601.22047
- GitHub:https://github.com/kijlk/IF-Interference
主要内容(ai 速读):
这篇论文发现一个大语言模型(LLM)的反常现象:让模型必须遵循一些它本来就能满足的指令(约束),反而会降低它解决原始任务的能力。比如,模型本来能正确解一道数学题,但如果你加上一条“请分步骤解答”这种它原本回答里就已经做到的约束,它反而可能答错。进而,作者提出了一个叫 SUSTAINSCORE(维持分数)的指标,来量化这种干扰,并在数学、多步问答和代码生成任务上验证了这一现象的普遍性和严重性。
指令遵循(Instruction Following) 对 任务解决能力(Task Solving) 的干扰:
- 指令遵循:让 LLM 按特定要求做事(比如"用 Python 写"、"分三步回答")
- 任务解决:LLM 完成核心任务的能力(比如解数学题、写代码)
核心问题:先前工作没有研究"既要听话又要做题"时,LLM 会不会崩溃。实际上,LLM 可能为了遵守指令,把题做错。
具体的,作者发现一个悖论:LLM 本来能解对题 → 从它的正确答案中提取一个"它已经在遵守的约束" → 把这个约束明确告诉它 → LLM 反而做错
Gap:现有基准测试(如 IFEval)只测"听不听话",即是否能严格满足给定的格式、长度、关键词等约束,不测"听话后还能不能做对题"。现有评估存在盲点 —— 约束满足和任务成功被混为一谈。
实验设置:
- 任务:数学推理(GSM8K 等)、多跳问答(HotpotQA 等)、代码生成(HumanEval 等)
- 约束类型:5 种:方法(怎么解)、长度(多少字)、风格(什么语气)、关键词(必须含/不含某词)、结构(什么格式)
- 核心指标:SUSTAINSCORE:原本做对的题,加了自明约束后还能做对的比例
- 模型:从 1.5B 到 235B 参数,包括 Claude-Sonnet-4.5、GPT-4.1、DeepSeek-V3.1 等
关键设定:约束是"自明的"(self-evident)——即从 LLM 自己的正确答案中提取的,确保它本来就会遵守。
核心 method,即 SUSTAINSCORE 的计算框架(图 2):
- 收集成功样本:先用模型处理一批任务,只保留它能独立解决正确的任务。
- 反向生成约束:从这些成功的回答中,自动提取出它已经自然满足的约束(如方法、风格、长度、关键词、结构共五类)。这保证了约束是“自明的”,模型本有能力满足。
- 添加约束重测:将这些提取出的约束,作为额外要求,重新拼接到原始任务指令中。
- 计算分数:让模型处理这些“加了自明约束”的新指令,计算其任务正确率。这个正确率就是 SUSTAINSCORE。它直观反映了“加约束”导致的性能下降。
实验结果:
- 普遍下降:所有模型在添加约束后,任务性能都显著下降。即使是 Claude-Sonnet-4.5 这样的顶尖模型,在多跳 QA 任务上也只维持了 85% 的原有性能。
- 代码任务最脆弱:代码生成任务性能下降最剧烈,许多模型性能保持率低于 60%。
- 传统高指标不意味着鲁棒:有些模型在传统指令遵循(IF)和任务准确率(Accuracy)上得分很高,但 SUSTAINSCORE 很低,说明它们不善于在约束下维持任务能力。
- 原因分析:通过 attention 分析发现,失败案例比成功案例对约束部分投入了显著更多的注意力,这可能是约束干扰核心推理的原因。
- 约束数量效应:前 5 个约束造成主要伤害,之后趋于平稳(图3)
- 训练策略影响:初步实验表明,基于强化学习(RL) 对齐的模型,在维持性能鲁棒性上,可能优于仅在长链思维数据上做监督微调(SFT-LongCoT) 的模型。
Learning to Learn with Contrastive Meta-Objective
- 来源:无意中看到的,NeurIPS 2025 oral。
- arxiv:https://arxiv.org/abs/2410.05975
(还没读。这篇文章看起来比较古典,做的是传统 ML,并不是做 llm 的。
(这个东西能用在 llm 上吗?现在看到一个东西,就会想它能否用在 llm 上
Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences
- 来源:无意中搜到的。ICRA 2025。
- arxiv:https://arxiv.org/abs/2409.07268
- GitHub:https://github.com/FeiCuiLengMMbb/paper_MTPL
- 好奇是不是 multi-type + PbRL。
MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration
- arxiv:https://arxiv.org/abs/2006.08170
- 来源:合作者说有趣的 skill + meta-RL 论文,ICML 2021。
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
- arxiv:https://arxiv.org/abs/2505.03335
- 来源:neurips 2025 best paper 的一作 yue yang 的 NeurIPS 2025 spotlight 工作。被题目吸引住了,单纯好奇,想读一读。
CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
- arxiv:https://arxiv.org/abs/2202.00161
- 来源:想起来,想看一下。
auto-curriculum learning (Jiang et al., 2021b)
- 来源:RSD。似乎可以做自动 curriculum learning,或许是有启发性的。
Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL
- 来源:RGSD。可能包含一个技能库,也想看。速读一下就行。
Unsupervised Skill Discovery via Recurrent Skill Training
- 来源:合作者推荐的 skill discovery 先前工作。
Learning to Discover Skills through Guidance
- 来源:同上。
One After Another: Learning Incremental Skills for a Changing World
- 来源:同上。
Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching
- 来源:同上。
Horizon Generalization in Reinforcement Learning
- arxiv:https://arxiv.org/abs/2501.02709
- website:https://horizon-generalization.github.io/
- 来源:Benjamin Eysenbach 的新作,是一篇 arxiv paper,同学说有趣。
HIQL: Offline Goal-Conditioned RL with Latent States as Actions
- arxiv:https://arxiv.org/abs/2307.11949
- website:https://seohong.me/projects/hiql/
- 来源:合作者推荐的文章,好像也是 Benjamin Eysenbach 发表的。
Contrastive Preference Learning: Learning from Human Feedback without RL
- arxiv:https://arxiv.org/abs/2310.13639
- GitHub:https://github.com/jhejna/cpl
- 来源:无意中搜到的文章,ICLR 2024,好像之前读过。
- 主要内容:
Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
- arxiv:https://arxiv.org/abs/2502.08985
- 来源:同学的最新工作。
- 主要内容:
- 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。
Rethinking Reward Modeling in Preference-based Large Language Model Alignment
- arxiv:https://arxiv.org/abs/2411.04991
- OpenReview:https://openreview.net/forum?id=rfdblE10qm
- 来源:ICLR 2025 oral。
- 主要内容:
- 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
- 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
- 实验是否过于 toy(?)理论大概说了什么(?)
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
- arxiv:https://arxiv.org/abs/2410.05527
- open review:https://openreview.net/forum?id=2iYVBqRHK4
- 来源:合作者推荐的文章。
- 主要内容:
- preference-based index policy(?)
- whittle index,一个结论,两个等价条件,经典问题的证明方式。
Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
- 来源:师兄的文章。
Data Center Cooling System Optimization Using Offline Reinforcement Learning
- arxiv:https://arxiv.org/pdf/2501.15085
- 来源:xianyuan zhan 组的新文章。
- 主要内容:
- T-symmetry。
SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- arxiv:https://arxiv.org/abs/2407.04752
- 来源:师兄推荐的神秘文章,ICLR 2025 poster。
Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
- arxiv:https://arxiv.org/abs/2410.23680
- 来源:偶然看到的文章。
Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
- arxiv:https://arxiv.org/abs/2505.21067
- 来源:偶然看到的文章。
Thinkless: LLM Learns When to Think
- arxiv:https://arxiv.org/abs/2505.13379
- 来源:偶然看到的文章。
Learning to Reason without External Rewards
- arxiv:https://arxiv.org/abs/2505.19590
- 来源:偶然看到的文章。

浙公网安备 33010602011771号