论文速读记录 | 2026.02



目录


Explore, Discover and Learn: Unsupervised Discovery of State-Covering Skills

EDL 跟先前工作一样,希望最大化 s 和 z 之间的互信息 \(I(s;z)\)。EDL 采用 forward MI,即 \(I(s;z) = H(s) - H(s|z)\)。第一项让 EDL 希望最大化 state 的熵,尽可能探索更多 state,而第二项希望给定 z 之后,state 的熵能尽量小,也就是可以通过 z 推断 state。

Explore, Discover and Learn:

  • Explore:这一阶段的目标是,获取覆盖良好的固定分布 p(s)。如果有 oracle,我们可以采样一个均匀的 p(s);也可以使用 SMM 方法探索,让 policy 的边际状态分布匹配目标分布,如均匀分布。
  • Discovery:使用 VQ-VAE 建模 \(q(s|z), ~ q(z|s)\)。VQ-VAE用于处理离散的 skill。
  • Learn:去学一个 policy \(\pi(a | s,z)\),intrinsic reward 为 \(r(s,z')=\log q_\phi(s|z')\),这个形式是从 forward MI 里推出来的,最小化 \(H(s|z)\) 这一项。EDL 使用 PPO 来学这个 policy。
    • 我们假设 \(p(s | z)\) 服从高斯分布,但这个假设貌似忽略了迷宫的连通性,比如欧氏距离很近的两个点可能 reward 差不多大,但可能分布在墙的两侧(?)有些问题,会导致性能没那么好。
    • 所以,EDL 使用 Sibling Rivalry 技术来跳出局部最优,具体的,维护两个竞争策略 π1, π2,\(r_\text{shaped} = r(s,z) − ϵ · I[\text{other agent reached closer}]\)。或等价实现:给远离目标的状态额外惩罚。这样可以减少策略陷入局部最优的时间,加速 learning。

实验:

  • EDL 的实验环境是 2D 连续迷宫,评价指标主要使用定性可视化。baseline 是 VIC、DIAYN(reverse MI)和 DADS(forward MI)。EDL 相比先前方法的优势:
    • reverse 方法中,策略为了获得高奖励,会倾向于反复访问 最初随机探索到的状态,因为这些 state 的 \(H(z | s)\) 更小,而一个随机 state 的 z 可能没有对应,因此 \(H(z | s)\) 比较大。DADS 好像也有相似的问题。
    • deepseek 说,这些方法共同的问题是,策略自身产生的状态分布 \(ρ_π(s)\) 来近似目标分布 p(s),而 EDL 通过引入固定的 p(s) 彻底解决了这个问题。
  • EDL 使用离散的 skill,所以使用 VQ-VAE。EDL 声称,使用离散 skill 的原因,主要是 reverse MI 方法没法用连续 skill,是为了公平性,而 EDL 框架理论上是可以用连续 skill 的。

图 4:改变 EDL 在 explore 部分的覆盖的区域,可以让后面学到的 skill 只覆盖我们想要的区域。

TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse

没有读这篇文章,但是 website 写的很清楚,只是把 website 的内容搬过来了。

abstract:

  • 尽管 scaling 驱动了机器学习领域最近的重大进展,强化学习(RL)方法仍然主要使用小型的 value function。盲目扩展值函数,包括使用已知的高度可扩展的 Transformer 架构,通常会导致学习不稳定和性能更差。
  • 在这项工作中,我们提出问题:是什么阻碍了 Transformer 有效地扩展用于值函数?通过实证分析,我们确定了这种扩展中的关键失效模式:随着容量的增加,attention 分数会崩溃。我们的关键洞察是,通过控制 attention 分数的熵,我们可以有效地防止这种崩溃并稳定训练,从而能够使用更大的模型。
  • 为此,我们提出了 Transformer Q-Learning(TQL),这是一种释放 Transformer 在 RL 中学习值函数的 scaling 潜力的方法。我们的方法在从最小网络规模扩展到最大网络规模时,性能提高了高达 43%,而先前的方法则出现了性能下降。

Key Ideas:

  • 🔍 注意力崩溃:我们在使用 Transformer 扩展值函数学习时识别出关键失效模式——随着模型容量的增加,注意力熵会崩溃,导致模型只关注少数几个 token,并产生非平滑的值表面。
  • 🎯 熵引导训练:TQL 引入了每层可学习的温度参数,以控制注意力分数的熵向目标值收敛,防止崩溃并实现大规模稳定训练。
  • 📈 有效扩展:在先前的扩展方法中,平均性能会下降高达 10.6%,而 TQL 从最小的(0.4M)模型扩展到最大的(26M)模型时,性能提升了 43%,展示了持续有效的扩展能力。

On the Paradoxical Interference between Instruction-Following and Task Solving

主要内容(ai 速读):

这篇论文发现一个大语言模型(LLM)的反常现象:让模型必须遵循一些它本来就能满足的指令(约束),反而会降低它解决原始任务的能力。比如,模型本来能正确解一道数学题,但如果你加上一条“请分步骤解答”这种它原本回答里就已经做到的约束,它反而可能答错。进而,作者提出了一个叫 SUSTAINSCORE(维持分数)的指标,来量化这种干扰,并在数学、多步问答和代码生成任务上验证了这一现象的普遍性和严重性。

指令遵循(Instruction Following) 对 任务解决能力(Task Solving) 的干扰:

  • 指令遵循:让 LLM 按特定要求做事(比如"用 Python 写"、"分三步回答")
  • 任务解决:LLM 完成核心任务的能力(比如解数学题、写代码)

核心问题:先前工作没有研究"既要听话又要做题"时,LLM 会不会崩溃。实际上,LLM 可能为了遵守指令,把题做错。

具体的,作者发现一个悖论:LLM 本来能解对题 → 从它的正确答案中提取一个"它已经在遵守的约束" → 把这个约束明确告诉它 → LLM 反而做错

Gap:现有基准测试(如 IFEval)只测"听不听话",即是否能严格满足给定的格式、长度、关键词等约束,不测"听话后还能不能做对题"。现有评估存在盲点 —— 约束满足任务成功被混为一谈。

实验设置:

  • 任务:数学推理(GSM8K 等)、多跳问答(HotpotQA 等)、代码生成(HumanEval 等)
  • 约束类型:5 种:方法(怎么解)、长度(多少字)、风格(什么语气)、关键词(必须含/不含某词)、结构(什么格式)
  • 核心指标:SUSTAINSCORE:原本做对的题,加了自明约束后还能做对的比例
  • 模型:从 1.5B 到 235B 参数,包括 Claude-Sonnet-4.5、GPT-4.1、DeepSeek-V3.1 等

关键设定:约束是"自明的"(self-evident)——即从 LLM 自己的正确答案中提取的,确保它本来就会遵守。

核心 method,即 SUSTAINSCORE 的计算框架(图 2):

  1. 收集成功样本:先用模型处理一批任务,只保留它能独立解决正确的任务。
  2. 反向生成约束:从这些成功的回答中,自动提取出它已经自然满足的约束(如方法、风格、长度、关键词、结构共五类)。这保证了约束是“自明的”,模型本有能力满足。
  3. 添加约束重测:将这些提取出的约束,作为额外要求,重新拼接到原始任务指令中。
  4. 计算分数:让模型处理这些“加了自明约束”的新指令,计算其任务正确率。这个正确率就是 SUSTAINSCORE。它直观反映了“加约束”导致的性能下降。

实验结果:

  • 普遍下降:所有模型在添加约束后,任务性能都显著下降。即使是 Claude-Sonnet-4.5 这样的顶尖模型,在多跳 QA 任务上也只维持了 85% 的原有性能。
  • 代码任务最脆弱:代码生成任务性能下降最剧烈,许多模型性能保持率低于 60%。
  • 传统高指标不意味着鲁棒:有些模型在传统指令遵循(IF)和任务准确率(Accuracy)上得分很高,但 SUSTAINSCORE 很低,说明它们不善于在约束下维持任务能力。
  • 原因分析:通过 attention 分析发现,失败案例比成功案例对约束部分投入了显著更多的注意力,这可能是约束干扰核心推理的原因。
  • 约束数量效应:前 5 个约束造成主要伤害,之后趋于平稳(图3)
  • 训练策略影响:初步实验表明,基于强化学习(RL) 对齐的模型,在维持性能鲁棒性上,可能优于仅在长链思维数据上做监督微调(SFT-LongCoT) 的模型。

Learning to Learn with Contrastive Meta-Objective

(还没读。这篇文章看起来比较古典,做的是传统 ML,并不是做 llm 的。
(这个东西能用在 llm 上吗?现在看到一个东西,就会想它能否用在 llm 上

Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

  • arxiv:https://arxiv.org/abs/2505.03335
  • 来源:neurips 2025 best paper 的一作 yue yang 的 NeurIPS 2025 spotlight 工作。被题目吸引住了,单纯好奇,想读一读。

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery

auto-curriculum learning (Jiang et al., 2021b)

  • 来源:RSD。似乎可以做自动 curriculum learning,或许是有启发性的。

Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL

  • 来源:RGSD。可能包含一个技能库,也想看。速读一下就行。

Unsupervised Skill Discovery via Recurrent Skill Training

  • 来源:合作者推荐的 skill discovery 先前工作。

Learning to Discover Skills through Guidance

  • 来源:同上。

One After Another: Learning Incremental Skills for a Changing World

  • 来源:同上。

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching

  • 来源:同上。

Horizon Generalization in Reinforcement Learning

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

Contrastive Preference Learning: Learning from Human Feedback without RL

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2502.08985
  • 来源:同学的最新工作。
  • 主要内容:
    • 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

  • 来源:师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

Thinkless: LLM Learns When to Think

Learning to Reason without External Rewards



posted @ 2026-02-03 08:50  MoonOut  阅读(53)  评论(0)    收藏  举报