论文速读记录 | 2025.12（1）

Offline Multitask Representation Learning for Reinforcement Learning
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
Lipschitz-constrained Unsupervised Skill Discovery (LSD)
Controllability-Aware Unsupervised Skill Discovery (CSD)

Offline Multitask Representation Learning for Reinforcement Learning

arxiv：https://arxiv.org/abs/2403.11574
来源：NeurIPS 2024。是纯理论文章，没有代码。
主要内容：对于低秩 MDP（transition \(P(s,a,s') = \phi(s,a)^T \psi(s')\)）中的 offline meta RL，利用给定的 N 个具有相同的的 task 的 offline 数据集，去学习一个统一的 \(\phi\)，然后对于一个给定的新 task（比如只有 transition 没有 reward 或者其他情况），进行适应。
纯理论工作，看不太懂，（看起来跟目前工作也没什么关系）。

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

arxiv：https://arxiv.org/abs/2503.14858
来源：NeurIPS 2025 best paper，Benjamin Eysenbach 组的工作。
之前读过：论文速读记录 | 2025.06
这篇文章主要在讲 RL scaling law 故事。
kimi 的一句话概括：在自监督的 goal-conditioned RL 中，把网络从常见的 4 层暴增到 64-1024 层，配合残差连接等技术，能让性能提升 2-50 倍，并自动学会新颖的复杂行为（比如人形机器人爬行 → 直立行走 → 翻越墙壁）。

Benjamin Eysenbach 的自监督 GCRL：

学习一个 goal-conditioned policy \(\pi(a|s,g)\)，输入当前状态 s 和目标 g（通常是未来状态），输出动作 a。
使用 Contrastive RL，把 RL 转成对比学习问题。
Critic 去学习一个度量：如果状态-动作 (s,a) 能到达目标 g，那它们的 embedding 距离 \(f(s,a,g) = \|\phi(s,a) - \psi(g)\|^2\) 应该很近，否则很远。基于这个思想，用 InfoNCE loss 训练：从同一条轨迹采样正样本 \((s_i,a_i,g_i)\)，从不同轨迹采样负样本 \(g_j\)，loss = \(-\log[ \exp(f(s_i,a_i,g_i)) / \sum_j \exp(f(s_i,a_i,g_j)) ]\)。
Actor \(\pi_\theta(a|s,g)\) 直接最大化 critic 的输出 \(f(s,a,g)\)，即去选一个让 \(\phi(s,a)\) 和 \(\psi(g)\) 的 embedding 距离更小的 action。
相关工作：Benjamin Eysenbach 的 Contrastive RL（速读），感觉思路非常像的 Quasimetric RL（速读），以及相关的 temporal distance 工作（ETD）。仍在思考中…

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

arxiv：https://arxiv.org/abs/2510.22954
GitHub：https://github.com/liweijiang/artificial-hivemind
来源：NeurIPS 2025 best paper。

主要内容（kimi 速读）：

gap：大语言模型（LLM）在开放式任务（如创意写作、头脑风暴）中存在严重的同质化现象：不仅单个模型多次采样生成高度相似的内容（intra-model repetition），不同模型家族之间也惊人地趋同（inter-model homogeneity），甚至产生逐字重叠。这导致用户接触不到多样化观点，长期可能侵蚀人类创造力。
method：
- 构建了数据集 INFINITY-CHAT，从 WildChat 挖掘 26,070 个真实开放式查询，首次建立 6 大类 17 子类的开放式任务分类体系，覆盖创意生成、道德困境、技能开发等真实场景。
- 同时，引入密集人类标注：31,250 个标注（25 人 / 样本），同时收集绝对评分（ 1-5 分）和两两偏好，通过 Shannon 熵量化个体差异。
- 双维度诊断：同时测量模型内重复（50 次采样）和跨模型相似（25 个模型），用句子嵌入的余弦相似度量化同质化。细粒度对齐分析：将人类标注按相似质量和高分歧分组，检验模型评估器在不同场景下的校准能力（这句没听懂）。
关键结论：
- 同质化现象惊人。模型内重复：即使高温采样，79%的查询回答相似度 >0.8（随机基线仅 0.1-0.2）。跨模型同质化：不同模型回答相似度平均0.75+，DeepSeek-V3与GPT-4达0.81，Qwen和GPT模型家族间相似度尤其高
- 现有 LLM 在开放式任务中存在系统性同质化倾向，这不是采样参数能解决的。奖励模型和评估器缺乏对"偏好多样性"的理解能力，导致对齐训练可能反而压制了创造性。

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

arxiv：https://arxiv.org/abs/2505.06708
GitHub：https://github.com/qiuzh20/gated_attention
HuggingFace：https://huggingface.co/QwQZh/gated_attention
来源：NeurIPS 2025 best paper。

主要内容（kimi 速读）：

kimi 的一句话总结：作者们在标准注意力机制的输出后面加了个简单的 sigmoid 门控，发现这能让 15B 的 MoE 模型和 1.7B 的稠密模型在 3.5T token 数据上训练得更稳定、效果更好，还能消除 attention sink，让模型处理长文本时外推能力更强。
attention sink 是什么：
- 现象：Transformer 的 Softmax 注意力，会把近 50% 的注意力分数砸在序列的前几个 token 上（尤其是第一个 token），后面的 toke n分到的注意力少得可怜。
- 原因：Softmax 强制所有注意力分数和为 1 且非负。如果模型觉得当前上下文里没什么值得关注的，又不能违反归一化约束，只能把"多余"的注意力强行"汇"到前面几个 token 上，让它们当"垃圾桶"。
- 后果：处理长文本时，真正相关的后续信息得不到足够关注，模型性能暴跌。
这篇论文把 sigmoid 加在了注意力计算完成后、送入下一层之前这个位置。（更具体的技术细节就没有读了）

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training

arxiv：https://arxiv.org/abs/2505.17638
GitHub：https://github.com/tbonnair/Why-Diffusion-Models-Don-t-Memorize
来源：NeurIPS 2025 best paper。diffusion 我一点都不懂（

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

arxiv：https://arxiv.org/abs/2504.13837
website：https://limit-of-rlvr.github.io/
来源：NeurIPS 2025 Best Paper Runner-up Award，best paper 入围奖。之前师兄提过，说是系里其他人的文章，应该影响力很大。观摩了一作 yang yue 的个人主页，太猛了…

主要内容（kimi 速读）：

kimi 的一句话总结：这篇论文发现，当前流行的强化学习方法（RLVR）其实并没有让大语言模型学会"新"的推理能力，它只是让模型更擅长"挑选"出原本就会的解法，就像学生没学会新知识点，只是更会用已有知识应对考试了。
核心故事线：
传统评估用 pass@1（一次成功率）无法区分：模型是真的"学会"了新解法，还是单纯更擅长从已有知识中"捞出"正确答案。需要能探测能力边界的评估方法，而非平均表现。
因此，这个工作计算 pass@k 曲线，对每个问题，让基础模型和RL模型各自采样上百到上千次答案；看 k 从 1 到 1024 时，两个模型分别能解决多少问题。如果 RL 真的让模型变强了，它的 pass@k 曲线应该全程高于基础模型。
实验结果：
小 k 时（k=1）：RL 模型胜率更高（比如从 20%→35%），确实更会"一遍做对"。然而大 k 时（k=256+），基础模型反超，能解更多题；比如在 Minerva 数据集上，32B 模型的基础版比 RL 版多解 9% 的问题。
PPO/GRPO/Reinforce++ 等六种主流 RL 算法表现相似，均未达最优，证明这可能是 RL 本身的特性，与算法无关。
核心结论：RL 未引入新推理模式，所有正确路径已存在于基础模型；训练反而缩小了探索范围，导致部分原可解问题变得不可解。
（然而，印象里 deepseek-r1 带来的一个核心结论就是，拿 RLVR 使劲训大模型，大模型的能力就能有所提升。感觉这个结论，跟这篇文章好像有些矛盾（）乱说，可能是关注的问题规模、问题范围不一样之类（我不懂大模型，都是听其他人说的这些

Lipschitz-constrained Unsupervised Skill Discovery (LSD)

来源：seohong park 的 DSD 系列文章。
arxiv：https://arxiv.org/abs/2202.00914

目标函数：

\[\max J^{\text{LSD}} = \mathbb{E}_{z \sim p(z), \tau \sim p^\pi(\tau|z)}\left[(\phi(s_T) - \phi(s_0))^\top z\right] \]

约束：状态表示函数 \(\phi: \mathcal{S} \to \mathbb{R}^d\) 必须满足 1-Lipschitz 条件：

\[\|\phi(x) - \phi(y)\| \leq \|x - y\|, \quad \forall x, y \in \mathcal{S} \]

Controllability-Aware Unsupervised Skill Discovery (CSD)

来源：seohong park 的 DSD 系列文章。
arxiv：https://arxiv.org/abs/2302.05103

目标函数和约束：

\[\max_{\pi,\phi} \ \mathbb{E}_{z,s,s'}[(\phi(s') - \phi(s))^\top z] \]

\[\text{s.t.} \ \forall x,y\in\mathcal{S}, \ \|\phi(x) - \phi(y)\| \leq d(x,y) \]

其中 \(\phi:\mathcal{S}\to\mathbb{R}^D\) 将状态映射到技能空间，而 d 使用可控性感知距离函数 \(d^{\text{CSD}}(s,s')\) ：

\[d^{\text{CSD}}(s,s') \triangleq \big(s' - \mu_\theta(s)\big)^\top \Sigma_\theta^{-1}(s) \big(s' - \mu_\theta(s)\big) \propto -\log q_\theta(s'|s) \]

\(q_\theta(s'|s) = \mathcal{N}(\mu_\theta(s), \Sigma_\theta(s))\) 是当前技能策略的转移概率模型。

posted @ 2025-12-02 23:13 MoonOut 阅读(53) 评论(0) 收藏举报

刷新页面返回顶部

月出兮彩云归 🌙

论文速读记录 | 2025.12（1）

Offline Multitask Representation Learning for Reinforcement Learning

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Lipschitz-constrained Unsupervised Skill Discovery (LSD)

Controllability-Aware Unsupervised Skill Discovery (CSD)

公告