MoonOut - 博客园

摘要： Act as a reinforcement learning expert. Please do a review for representation learning in RL. Should focus on how to map a trajectory to a latent. 阅读全文

posted @ 2024-02-29 16:10 MoonOut 阅读(335) 评论(1) 推荐(0)

2024年2月27日

offline RL · PbRL | OPPO：PbRL 场景的 offline hindsight transformer

摘要：将 offline HIM 应用到 PbRL，① 用离线轨迹训练 a=π(s,z) ，② 训练最优 hindsight z* 靠近 z+ 远离 z-。阅读全文

posted @ 2024-02-27 21:38 MoonOut 阅读(183) 评论(0) 推荐(0)

offline RL | HIM：基于 hindsight 的 RL 是一类大 idea

摘要：将 offline 训练轨迹中，当前时刻之后发生的事作为 hindsight，从而训练出想要达到当前 hindsight 的 action。阅读全文

posted @ 2024-02-27 21:08 MoonOut 阅读(468) 评论(0) 推荐(0)

offline RL | 读读 Decision Transformer

摘要： ① sequence: {s, a, R, s, ...}；② 在 s 的 decode 结果上加 MLP 预测 action；③ 给定 return-to-go 作为某种 hindsight。阅读全文

posted @ 2024-02-27 20:14 MoonOut 阅读(1041) 评论(0) 推荐(2)

2024年2月20日

python · matplotlib | seaborn 画图与调整图例位置

摘要：画图代码的存档。阅读全文

posted @ 2024-02-20 11:29 MoonOut 阅读(650) 评论(0) 推荐(0)

2024年2月17日

PID 控制 |（搬运）教程与 python 代码

摘要： Proportional-Integral-Derivative（PID），比例-积分-微分控制。阅读全文

posted @ 2024-02-17 10:55 MoonOut 阅读(573) 评论(0) 推荐(0)

2024年2月7日

offline 2 online | Cal-QL：校准保守 offline 训出的 Q value，让它与真实 reward 尺度相当

摘要： ① unlearn：保守 offline RL 训出的 Q function 太小，被 online 的真 reward 量级压制，导致 policy 初始化破坏，性能下降。② 校准：魔改 CQL 惩罚，令 Q_θ ≥ Q_β。阅读全文

posted @ 2024-02-07 20:14 MoonOut 阅读(292) 评论(0) 推荐(0)

offline 2 online | 重要性采样，把 offline + online 数据化为 on-policy samples

摘要：在 offline + online buffer 的采样概率，应当与 d^{on}(s,a) / d^{off}(s,a) 成正比（importance sampling）。阅读全文

posted @ 2024-02-07 14:08 MoonOut 阅读(494) 评论(0) 推荐(1)

2024年2月6日

凸优化 | 期末复习笔记存档

摘要：出分后发布笔记…… 阅读全文

posted @ 2024-02-06 11:02 MoonOut 阅读(879) 评论(0) 推荐(0)

概率图 | 两次小测的笔记存档

摘要：出分后发布笔记…… 阅读全文

posted @ 2024-02-06 10:47 MoonOut 阅读(154) 评论(0) 推荐(0)

复杂系统 | 20240116 · 考试题目回忆版

摘要：出分后发布笔记…… 阅读全文

posted @ 2024-02-06 10:37 MoonOut 阅读(80) 评论(0) 推荐(0)

复杂系统 | 考前知识点总结（不完全）

摘要：出分后发布笔记…… 阅读全文

posted @ 2024-02-06 10:37 MoonOut 阅读(117) 评论(0) 推荐(1)

2024年2月5日

offline 2 online | AWAC：基于 AWR 的 policy update + online 补充数据集

摘要：采用 policy iteration 框架，① policy evaluation 普通更新 Q function，② policy update 使用 AWR 式更新，③ 前两步的采样数据集都是 offline + online。阅读全文

posted @ 2024-02-05 21:50 MoonOut 阅读(358) 评论(0) 推荐(1)

2024年1月21日

offline RL | ABM：从 offline dataset 的好 transition 提取 prior policy

摘要：对于 policy improvement，maximize Q(s, π(s)) ，同时约束 π 与一个 prior policy 的 KL 散度，prior policy 用 advantage 非负的 offline 状态转移计算。阅读全文

posted @ 2024-01-21 11:26 MoonOut 阅读(245) 评论(0) 推荐(0)

PbRL | 速通 ICLR 2024 RLHF · PbRL

摘要： OpenReview 检索关键词：ICLR 2024、reinforcement learning、preference、human feedback。阅读全文

posted @ 2024-01-21 11:17 MoonOut 阅读(721) 评论(0) 推荐(0)

2024年1月18日

Tmux | 常用操作存档

摘要：因为自己实在是太好忘了💀 所以在博客存档方便查找阅读全文

posted @ 2024-01-18 19:47 MoonOut 阅读(129) 评论(0) 推荐(0)

2024年1月13日

“嵌套分区法，是一种良策；将海洋分成块，每块都探测。”

摘要：为了帮助你更好地理解 Nested Partition 算法，我为你生成了一首诗，用比喻的方式描述了这种算法的过程。希望这对你有所帮助。😊 阅读全文

posted @ 2024-01-13 11:06 MoonOut 阅读(171) 评论(1) 推荐(0)

2023年12月17日

观后感 | 《黑门》很好看，想安利给全世界

摘要：如果没有质量更好的第二季，宁愿它就这样停在第一季；已经很好了，已经很完美了。阅读全文

posted @ 2023-12-17 16:15 MoonOut 阅读(122) 评论(1) 推荐(0)

offline RL | Pessimistic Bootstrapping (PBRL)：在 Q 更新中惩罚 uncertainty，拉低 OOD Q value

摘要： critic loss = ① ID 数据的 TD-error + ② OOD 数据的伪 TD-error，① 对所转移去的 (s',a') 的 uncertainty 进行惩罚，② 对 (s, a_ood) 的 uncertainty 进行惩罚。阅读全文

posted @ 2023-12-17 15:37 MoonOut 阅读(241) 评论(0) 推荐(0)

PbRL | QPA：选择 near on-policy query，加速 policy learning 收敛速度

摘要： Query-Policy Misalignment：选择的看似 informative 的 query，实际上可能与 RL agent 的兴趣不一致，因此对 policy learning 帮助很小，最终导致 feedback-efficiency 低下。阅读全文

posted @ 2023-12-17 15:28 MoonOut 阅读(176) 评论(0) 推荐(0)

2023年11月30日

PbRL | B-Pref：生成多样非理性 preference，建立 PbRL benchmark

摘要：贡献：提出一种生成非理性（模拟人类）preference 的方法，使用多样化的 preference，评测 PBRL 各环节算法设计（select informative queries、feedback schedule）的效果。阅读全文

posted @ 2023-11-30 21:21 MoonOut 阅读(281) 评论(0) 推荐(0)

2023年11月28日

概率图模型 · 蒙特卡洛采样 · MCMC | 非常好的教学视频

摘要：非常感谢！去写作业了🙏🏻 阅读全文

posted @ 2023-11-28 15:34 MoonOut 阅读(64) 评论(0) 推荐(0)

2023年11月27日

offline RL | BCQ：学习 offline dataset 的 π(a|s)，直接使用 (s, π(s)) 作为 Q learning 训练数据

摘要： ① 使用 VAE 建模 offline dataset 的 π(a|s)，② 添加一个可以学习的 action 扰动 ξ，③ 用 (s, a=π(s)+ξ, r, s') 做 Q-learning。阅读全文

posted @ 2023-11-27 21:29 MoonOut 阅读(424) 评论(0) 推荐(0)

RL 基础 | 讲的很好的 TRPO 博客

摘要：一篇知乎 TRPO 博客，感觉 idea 讲的很清楚，特来搬运。阅读全文

posted @ 2023-11-27 15:47 MoonOut 阅读(65) 评论(0) 推荐(0)

2023年11月25日

offline RL | IQL：通过 sarsa 式 Q 更新避免 unseen actions

摘要： ① 通过 (s,a,r,s',a') 更新 Q function，② 通过 Q 和 V 交替迭代，避免过拟合 s'~p(s'|a) 的随机好 s'，误以为 a 是好 action，③ 通过 AWR 从 advantage 提取 policy。阅读全文

posted @ 2023-11-25 20:12 MoonOut 阅读(1237) 评论(0) 推荐(0)

2023年11月19日

offline RL | TD3+BC：在最大化 Q advantage 时添加 BC loss 的极简算法

摘要： ① 在 actor 最大化 Q advantage 时，纳入一个 behavior cloning loss； ② observation 归一化；③ 让 Q advantage 跟 behavior cloning 的 loss 可比。阅读全文

posted @ 2023-11-19 17:02 MoonOut 阅读(1299) 评论(0) 推荐(0)

2023年11月16日

概率图 · 概率论基础 | 讲的非常好的 KL 散度博客

摘要：感觉讲的非常好，谢谢善良的博主 😊🙏🏻 阅读全文

posted @ 2023-11-16 16:36 MoonOut 阅读(49) 评论(0) 推荐(0)

2023年11月13日

off-policy RL | Advantage-Weighted Regression (AWR)：组合先前策略得到新 base policy

摘要：仅仅留下了一些印象，并没有看懂具体算法…… 如果需要重读这篇论文，会 refine 这篇阅读笔记的。阅读全文

posted @ 2023-11-13 20:40 MoonOut 阅读(704) 评论(0) 推荐(0)

PbRL · offline RL | OPRL：发现部分 D4RL tasks 不适合做 offline reward learning

摘要：发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。阅读全文

posted @ 2023-11-13 18:11 MoonOut 阅读(856) 评论(0) 推荐(0)

2023年11月11日

PbRL | SURF：使用半监督学习，对 labeled segment pair 进行数据增强

摘要： ① 将 high-confidence 的预测 (σ0, σ1) 标上 pseudo-label；② 将 labeled segment pair 进行时序剪裁，得到更多数据增强的 labeled pair。阅读全文

posted @ 2023-11-11 20:16 MoonOut 阅读(574) 评论(0) 推荐(1)

线性代数 · 矩阵 · Matlab | Moore-Penrose 伪逆矩阵代码实现

摘要：写伪逆矩阵计算代码，是专业课作业 2333，挑了两个好实现的算法写一下。阅读全文

posted @ 2023-11-11 12:01 MoonOut 阅读(893) 评论(0) 推荐(0)

2023年11月10日

PbRL | RUNE：鼓励 agent 探索 reward model 更不确定的 (s,a)

摘要： reward model 对某 (s,a) 的不确定性，由一系列 ensemble reward models 的输出结果方差的度量，直接乘一个超参数，作为 intrinsic reward 的一部分。阅读全文

posted @ 2023-11-10 17:43 MoonOut 阅读(728) 评论(0) 推荐(3)

月出兮彩云归 🌙

公告