论文速读记录 | 2025.12
目录
- Offline Multitask Representation Learning for Reinforcement Learning
- 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
- Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
- Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
- Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
- Absolute Zero: Reinforced Self-play Reasoning with Zero Data
- Multi-Task Learning as Multi-Objective Optimization
- Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences
- MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration
- Lipschitz-constrained Unsupervised Skill Discovery (LSD)
- Controllability-Aware Unsupervised Skill Discovery (CSD)
- CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
- auto-curriculum learning (Jiang et al., 2021b)
- Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL
- Unsupervised Skill Discovery via Recurrent Skill Training
- Learning to Discover Skills through Guidance
- One After Another: Learning Incremental Skills for a Changing World
- Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching
- Horizon Generalization in Reinforcement Learning
- HIQL: Offline Goal-Conditioned RL with Latent States as Actions
- Contrastive Preference Learning: Learning from Human Feedback without RL
- Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
- Rethinking Reward Modeling in Preference-based Large Language Model Alignment
- DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
- Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
- Data Center Cooling System Optimization Using Offline Reinforcement Learning
- SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
- Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
- Thinkless: LLM Learns When to Think
- Learning to Reason without External Rewards
Offline Multitask Representation Learning for Reinforcement Learning
- arxiv:https://arxiv.org/abs/2403.11574
- 来源:NeurIPS 2024。是纯理论文章,没有代码。
- 主要内容:对于低秩 MDP(transition \(P(s,a,s') = \phi(s,a)^T \psi(s')\))中的 offline meta RL,利用给定的 N 个具有相同的 的 task 的 offline 数据集,去学习一个统一的 \(\phi\),然后对于一个给定的新 task(比如只有 transition 没有 reward 或者其他情况),进行适应。
- 纯理论工作,看不太懂,(看起来跟目前工作也没什么关系)。
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
- arxiv:https://arxiv.org/abs/2503.14858
- 来源:NeurIPS 2025 best paper,Benjamin Eysenbach 组的工作。
- 之前读过:论文速读记录 | 2025.06
- 这篇文章主要在讲 RL scaling law 故事。
- kimi 的一句话概括:在自监督的 goal-conditioned RL 中,把网络从常见的 4 层暴增到 64-1024 层,配合残差连接等技术,能让性能提升 2-50 倍,并自动学会新颖的复杂行为(比如人形机器人爬行 → 直立行走 → 翻越墙壁)。
Benjamin Eysenbach 的自监督 GCRL:
- 学习一个 goal-conditioned policy \(\pi(a|s,g)\),输入当前状态 s 和目标 g(通常是未来状态),输出动作 a。
- 使用 Contrastive RL,把 RL 转成对比学习问题。
- Critic 去学习一个度量:如果状态-动作 (s,a) 能到达目标 g,那它们的 embedding 距离 \(f(s,a,g) = \|\phi(s,a) - \psi(g)\|^2\) 应该很近,否则很远。基于这个思想,用 InfoNCE loss 训练:从同一条轨迹采样正样本 \((s_i,a_i,g_i)\),从不同轨迹采样负样本 \(g_j\),loss = \(-\log[ \exp(f(s_i,a_i,g_i)) / \sum_j \exp(f(s_i,a_i,g_j)) ]\)。
- Actor \(\pi_\theta(a|s,g)\) 直接最大化 critic 的输出 \(f(s,a,g)\),即去选一个让 \(\phi(s,a)\) 和 \(\psi(g)\) 的 embedding 距离更小的 action。
- 相关工作:Benjamin Eysenbach 的 Contrastive RL(速读),感觉思路非常像的 Quasimetric RL(速读),以及相关的 temporal distance 工作(ETD)。仍在思考中…
Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
- arxiv:https://arxiv.org/abs/2510.22954
- GitHub:https://github.com/liweijiang/artificial-hivemind
- 来源:NeurIPS 2025 best paper。
主要内容(kimi 速读):
- gap:大语言模型(LLM)在开放式任务(如创意写作、头脑风暴)中存在严重的同质化现象:不仅单个模型多次采样生成高度相似的内容(intra-model repetition),不同模型家族之间也惊人地趋同(inter-model homogeneity),甚至产生逐字重叠。这导致用户接触不到多样化观点,长期可能侵蚀人类创造力。
- method:
- 构建了数据集 INFINITY-CHAT,从 WildChat 挖掘 26,070 个真实开放式查询,首次建立 6 大类 17 子类的开放式任务分类体系,覆盖创意生成、道德困境、技能开发等真实场景。
- 同时,引入密集人类标注:31,250 个标注(25 人 / 样本),同时收集绝对评分( 1-5 分)和两两偏好,通过 Shannon 熵量化个体差异。
- 双维度诊断:同时测量模型内重复(50 次采样)和跨模型相似(25 个模型),用句子嵌入的余弦相似度 量化同质化。细粒度对齐分析:将人类标注按相似质量和高分歧分组,检验模型评估器在不同场景下的校准能力(这句没听懂)。
- 关键结论:
- 同质化现象惊人。模型内重复:即使高温采样,79%的查询回答相似度 >0.8(随机基线仅 0.1-0.2)。跨模型同质化:不同模型回答相似度平均0.75+,DeepSeek-V3与GPT-4达0.81,Qwen和GPT模型家族间相似度尤其高
- 现有 LLM 在开放式任务中存在系统性同质化倾向,这不是采样参数能解决的。奖励模型和评估器缺乏对"偏好多样性"的理解能力,导致对齐训练可能反而压制了创造性。
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
- arxiv:https://arxiv.org/abs/2505.06708
- GitHub:https://github.com/qiuzh20/gated_attention
- HuggingFace:https://huggingface.co/QwQZh/gated_attention
- 来源:NeurIPS 2025 best paper。
主要内容(kimi 速读):
- kimi 的一句话总结:作者们在标准注意力机制的输出后面加了个简单的 sigmoid 门控,发现这能让 15B 的 MoE 模型和 1.7B 的稠密模型在 3.5T token 数据上训练得更稳定、效果更好,还能消除 attention sink,让模型处理长文本时外推能力更强。
- attention sink 是什么:
- 现象:Transformer 的 Softmax 注意力,会把近 50% 的注意力分数砸在序列的前几个 token 上(尤其是第一个 token),后面的 toke n分到的注意力少得可怜。
- 原因:Softmax 强制所有注意力分数和为 1 且非负。如果模型觉得当前上下文里没什么值得关注的,又不能违反归一化约束,只能把"多余"的注意力强行"汇"到前面几个 token 上,让它们当"垃圾桶"。
- 后果:处理长文本时,真正相关的后续信息得不到足够关注,模型性能暴跌。
- 这篇论文把 sigmoid 加在了 注意力计算完成后、送入下一层之前 这个位置。(更具体的技术细节就没有读了)
Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
- arxiv:https://arxiv.org/abs/2505.17638
- GitHub:https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize
- 来源:NeurIPS 2025 best paper。diffusion 我一点都不懂(
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
- arxiv:https://arxiv.org/abs/2504.13837
- website:https://limit-of-rlvr.github.io/
- 来源:NeurIPS 2025 Best Paper Runner-up Award,best paper 入围奖。之前师兄提过,说是系里其他人的文章,应该影响力很大。观摩了一作 yang yue 的个人主页,太猛了…
主要内容(kimi 速读):
- kimi 的一句话总结:这篇论文发现,当前流行的强化学习方法(RLVR)其实并没有让大语言模型学会"新"的推理能力,它只是让模型更擅长"挑选"出原本就会的解法,就像学生没学会新知识点,只是更会用已有知识应对考试了。
- 核心故事线:
- 传统评估用 pass@1(一次成功率)无法区分:模型是真的"学会"了新解法,还是单纯更擅长从已有知识中"捞出"正确答案。需要能探测能力边界的评估方法,而非平均表现。
- 因此,这个工作计算 pass@k 曲线,对每个问题,让基础模型和RL模型各自采样上百到上千次答案;看 k 从 1 到 1024 时,两个模型分别能解决多少问题。如果 RL 真的让模型变强了,它的 pass@k 曲线应该全程高于基础模型。
- 实验结果:
- 小 k 时(k=1):RL 模型胜率更高(比如从 20%→35%),确实更会"一遍做对"。然而大 k 时(k=256+),基础模型反超,能解更多题;比如在 Minerva 数据集上,32B 模型的基础版比 RL 版多解 9% 的问题。
- PPO/GRPO/Reinforce++ 等六种主流 RL 算法表现相似,均未达最优,证明这可能是 RL 本身的特性,与算法无关。
- 核心结论:RL 未引入新推理模式,所有正确路径已存在于基础模型;训练反而缩小了探索范围,导致部分原可解问题变得不可解。
- (然而,印象里 deepseek-r1 带来的一个核心结论就是,拿 RLVR 使劲训大模型,大模型的能力就能有所提升。感觉这个结论,跟这篇文章好像有些矛盾()乱说,可能是关注的问题规模、问题范围不一样之类(我不懂大模型,都是听其他人说的这些
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
- arxiv:https://arxiv.org/abs/2505.03335
- 来源:上一篇文章一作的 NeurIPS 2025 spotlight 工作。被题目吸引住了,单纯好奇,想读一读。
Multi-Task Learning as Multi-Objective Optimization
- arxiv:https://arxiv.org/abs/1810.04650
- 来源:合作者提到的论文,用 multi-objective 的方式来解决 multi-task 问题。NeurIPS 2018。
- (感觉对 RL 来说,如果 multi-task 的 task 之间 transition 相同,只有 reward 不同,那么问题 setting 好像跟 multi-objective 挺像的()
Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences
- 来源:无意中搜到的。ICRA 2025。
- arxiv:https://arxiv.org/abs/2409.07268
- GitHub:https://github.com/FeiCuiLengMMbb/paper_MTPL
- 好奇是不是 multi-type + PbRL。
MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration
- arxiv:https://arxiv.org/abs/2006.08170
- 来源:合作者说有趣的 skill + meta-RL 论文,ICML 2021。
Lipschitz-constrained Unsupervised Skill Discovery (LSD)
- 来源:seohong park 的 DSD 系列文章。
- arxiv:https://arxiv.org/abs/2202.00914
Controllability-Aware Unsupervised Skill Discovery (CSD)
- 来源:seohong park 的 DSD 系列文章。
- arxiv:https://arxiv.org/abs/2302.05103
CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
- arxiv:https://arxiv.org/abs/2202.00161
- 来源:想起来,想看一下。
auto-curriculum learning (Jiang et al., 2021b)
- 来源:RSD。似乎可以做自动 curriculum learning,或许是有启发性的。
Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL
- 来源:RGSD。可能包含一个技能库,也想看。速读一下就行。
Unsupervised Skill Discovery via Recurrent Skill Training
- 来源:合作者推荐的 skill discovery 先前工作。
Learning to Discover Skills through Guidance
- 来源:同上。
One After Another: Learning Incremental Skills for a Changing World
- 来源:同上。
Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching
- 来源:同上。
Horizon Generalization in Reinforcement Learning
- arxiv:https://arxiv.org/abs/2501.02709
- website:https://horizon-generalization.github.io/
- 来源:Benjamin Eysenbach 的新作,是一篇 arxiv paper,同学说有趣。
- 主要内容:
HIQL: Offline Goal-Conditioned RL with Latent States as Actions
- arxiv:https://arxiv.org/abs/2307.11949
- website:https://seohong.me/projects/hiql/
- 来源:合作者推荐的文章,好像也是 Benjamin Eysenbach 发表的。
Contrastive Preference Learning: Learning from Human Feedback without RL
- arxiv:https://arxiv.org/abs/2310.13639
- GitHub:https://github.com/jhejna/cpl
- 来源:无意中搜到的文章,ICLR 2024,好像之前读过。
- 主要内容:
Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
- arxiv:https://arxiv.org/abs/2502.08985
- 来源:同学的最新工作。
- 主要内容:
- 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。
Rethinking Reward Modeling in Preference-based Large Language Model Alignment
- arxiv:https://arxiv.org/abs/2411.04991
- OpenReview:https://openreview.net/forum?id=rfdblE10qm
- 来源:ICLR 2025 oral。
- 主要内容:
- 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
- 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
- 实验是否过于 toy(?)理论大概说了什么(?)
DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
- arxiv:https://arxiv.org/abs/2410.05527
- open review:https://openreview.net/forum?id=2iYVBqRHK4
- 来源:合作者推荐的文章。
- 主要内容:
- preference-based index policy(?)
Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
- 来源:师兄的文章。
Data Center Cooling System Optimization Using Offline Reinforcement Learning
- arxiv:https://arxiv.org/pdf/2501.15085
- 来源:xianyuan zhan 组的新文章。
- 主要内容:
- T-symmetry。
SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
- arxiv:https://arxiv.org/abs/2407.04752
- 来源:师兄推荐的神秘文章,ICLR 2025 poster。
Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
- arxiv:https://arxiv.org/abs/2410.23680
- 来源:偶然看到的文章。
Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
- arxiv:https://arxiv.org/abs/2505.21067
- 来源:偶然看到的文章。
Thinkless: LLM Learns When to Think
- arxiv:https://arxiv.org/abs/2505.13379
- 来源:偶然看到的文章。
Learning to Reason without External Rewards
- arxiv:https://arxiv.org/abs/2505.19590
- 来源:偶然看到的文章。

浙公网安备 33010602011771号