论文速读记录 | 2025.12



目录


Offline Multitask Representation Learning for Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2403.11574
  • 来源:NeurIPS 2024。是纯理论文章,没有代码。
  • 主要内容:对于低秩 MDP(transition \(P(s,a,s') = \phi(s,a)^T \psi(s')\))中的 offline meta RL,利用给定的 N 个具有相同的 的 task 的 offline 数据集,去学习一个统一的 \(\phi\),然后对于一个给定的新 task(比如只有 transition 没有 reward 或者其他情况),进行适应。
  • 纯理论工作,看不太懂,(看起来跟目前工作也没什么关系)。

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

  • arxiv:https://arxiv.org/abs/2503.14858
  • 来源:NeurIPS 2025 best paper,Benjamin Eysenbach 组的工作。
  • 之前读过:论文速读记录 | 2025.06
  • 这篇文章主要在讲 RL scaling law 故事。
  • kimi 的一句话概括:在自监督的 goal-conditioned RL 中,把网络从常见的 4 层暴增到 64-1024 层,配合残差连接等技术,能让性能提升 2-50 倍,并自动学会新颖的复杂行为(比如人形机器人爬行 → 直立行走 → 翻越墙壁)。

Benjamin Eysenbach 的自监督 GCRL:

  • 学习一个 goal-conditioned policy \(\pi(a|s,g)\),输入当前状态 s 和目标 g(通常是未来状态),输出动作 a。
  • 使用 Contrastive RL,把 RL 转成对比学习问题。
  • Critic 去学习一个度量:如果状态-动作 (s,a) 能到达目标 g,那它们的 embedding 距离 \(f(s,a,g) = \|\phi(s,a) - \psi(g)\|^2\) 应该很近,否则很远。基于这个思想,用 InfoNCE loss 训练:从同一条轨迹采样正样本 \((s_i,a_i,g_i)\),从不同轨迹采样负样本 \(g_j\),loss = \(-\log[ \exp(f(s_i,a_i,g_i)) / \sum_j \exp(f(s_i,a_i,g_j)) ]\)
  • Actor \(\pi_\theta(a|s,g)\) 直接最大化 critic 的输出 \(f(s,a,g)\),即去选一个让 \(\phi(s,a)\)\(\psi(g)\) 的 embedding 距离更小的 action。
  • 相关工作:Benjamin Eysenbach 的 Contrastive RL(速读),感觉思路非常像的 Quasimetric RL(速读),以及相关的 temporal distance 工作(ETD)。仍在思考中…

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

主要内容(kimi 速读):

  • gap:大语言模型(LLM)在开放式任务(如创意写作、头脑风暴)中存在严重的同质化现象:不仅单个模型多次采样生成高度相似的内容(intra-model repetition),不同模型家族之间也惊人地趋同(inter-model homogeneity),甚至产生逐字重叠。这导致用户接触不到多样化观点,长期可能侵蚀人类创造力。
  • method:
    • 构建了数据集 INFINITY-CHAT,从 WildChat 挖掘 26,070 个真实开放式查询,首次建立 6 大类 17 子类的开放式任务分类体系,覆盖创意生成、道德困境、技能开发等真实场景。
    • 同时,引入密集人类标注:31,250 个标注(25 人 / 样本),同时收集绝对评分( 1-5 分)和两两偏好,通过 Shannon 熵量化个体差异。
    • 双维度诊断:同时测量模型内重复(50 次采样)和跨模型相似(25 个模型),用句子嵌入的余弦相似度 量化同质化。细粒度对齐分析:将人类标注按相似质量和高分歧分组,检验模型评估器在不同场景下的校准能力(这句没听懂)。
  • 关键结论:
    • 同质化现象惊人。模型内重复:即使高温采样,79%的查询回答相似度 >0.8(随机基线仅 0.1-0.2)。跨模型同质化:不同模型回答相似度平均0.75+,DeepSeek-V3与GPT-4达0.81,Qwen和GPT模型家族间相似度尤其高
    • 现有 LLM 在开放式任务中存在系统性同质化倾向,这不是采样参数能解决的。奖励模型和评估器缺乏对"偏好多样性"的理解能力,导致对齐训练可能反而压制了创造性。

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

主要内容(kimi 速读):

  • kimi 的一句话总结:作者们在标准注意力机制的输出后面加了个简单的 sigmoid 门控,发现这能让 15B 的 MoE 模型和 1.7B 的稠密模型在 3.5T token 数据上训练得更稳定、效果更好,还能消除 attention sink,让模型处理长文本时外推能力更强。
  • attention sink 是什么:
    • 现象:Transformer 的 Softmax 注意力,会把近 50% 的注意力分数砸在序列的前几个 token 上(尤其是第一个 token),后面的 toke n分到的注意力少得可怜。
    • 原因:Softmax 强制所有注意力分数和为 1 且非负。如果模型觉得当前上下文里没什么值得关注的,又不能违反归一化约束,只能把"多余"的注意力强行"汇"到前面几个 token 上,让它们当"垃圾桶"。
    • 后果:处理长文本时,真正相关的后续信息得不到足够关注,模型性能暴跌。
  • 这篇论文把 sigmoid 加在了 注意力计算完成后、送入下一层之前 这个位置。(更具体的技术细节就没有读了)

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

主要内容(kimi 速读):

  • kimi 的一句话总结:这篇论文发现,当前流行的强化学习方法(RLVR)其实并没有让大语言模型学会"新"的推理能力,它只是让模型更擅长"挑选"出原本就会的解法,就像学生没学会新知识点,只是更会用已有知识应对考试了。
  • 核心故事线:
  • 传统评估用 pass@1(一次成功率)无法区分:模型是真的"学会"了新解法,还是单纯更擅长从已有知识中"捞出"正确答案。需要能探测能力边界的评估方法,而非平均表现。
  • 因此,这个工作计算 pass@k 曲线,对每个问题,让基础模型和RL模型各自采样上百到上千次答案;看 k 从 1 到 1024 时,两个模型分别能解决多少问题。如果 RL 真的让模型变强了,它的 pass@k 曲线应该全程高于基础模型。
  • 实验结果:
  • 小 k 时(k=1):RL 模型胜率更高(比如从 20%→35%),确实更会"一遍做对"。然而大 k 时(k=256+),基础模型反超,能解更多题;比如在 Minerva 数据集上,32B 模型的基础版比 RL 版多解 9% 的问题。
  • PPO/GRPO/Reinforce++ 等六种主流 RL 算法表现相似,均未达最优,证明这可能是 RL 本身的特性,与算法无关。
  • 核心结论:RL 未引入新推理模式,所有正确路径已存在于基础模型;训练反而缩小了探索范围,导致部分原可解问题变得不可解。
  • (然而,印象里 deepseek-r1 带来的一个核心结论就是,拿 RLVR 使劲训大模型,大模型的能力就能有所提升。感觉这个结论,跟这篇文章好像有些矛盾()乱说,可能是关注的问题规模、问题范围不一样之类(我不懂大模型,都是听其他人说的这些

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

  • arxiv:https://arxiv.org/abs/2505.03335
  • 来源:上一篇文章一作的 NeurIPS 2025 spotlight 工作。被题目吸引住了,单纯好奇,想读一读。

Multi-Task Learning as Multi-Objective Optimization

  • arxiv:https://arxiv.org/abs/1810.04650
  • 来源:合作者提到的论文,用 multi-objective 的方式来解决 multi-task 问题。NeurIPS 2018。
  • (感觉对 RL 来说,如果 multi-task 的 task 之间 transition 相同,只有 reward 不同,那么问题 setting 好像跟 multi-objective 挺像的()

Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

Lipschitz-constrained Unsupervised Skill Discovery (LSD)

Controllability-Aware Unsupervised Skill Discovery (CSD)

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery

auto-curriculum learning (Jiang et al., 2021b)

  • 来源:RSD。似乎可以做自动 curriculum learning,或许是有启发性的。

Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL

  • 来源:RGSD。可能包含一个技能库,也想看。速读一下就行。

Unsupervised Skill Discovery via Recurrent Skill Training

  • 来源:合作者推荐的 skill discovery 先前工作。

Learning to Discover Skills through Guidance

  • 来源:同上。

One After Another: Learning Incremental Skills for a Changing World

  • 来源:同上。

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching

  • 来源:同上。

Horizon Generalization in Reinforcement Learning

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

Contrastive Preference Learning: Learning from Human Feedback without RL

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2502.08985
  • 来源:同学的最新工作。
  • 主要内容:
    • 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

  • 来源:师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

Thinkless: LLM Learns When to Think

Learning to Reason without External Rewards



posted @ 2025-12-02 23:13  MoonOut  阅读(34)  评论(0)    收藏  举报