摘要: 因为自己实在是太好忘了💀 所以在博客存档方便查找 阅读全文
posted @ 2024-01-18 19:47 MoonOut 阅读(107) 评论(0) 推荐(0)
摘要: 存下来方便查阅。 阅读全文
posted @ 2023-06-16 10:10 MoonOut 阅读(553) 评论(1) 推荐(0)
摘要: 未完待续。 阅读全文
posted @ 2026-02-17 23:08 MoonOut 阅读(11) 评论(0) 推荐(0)
摘要: 汇总并翻译了一些 VeRL 的文档。 阅读全文
posted @ 2026-02-17 17:40 MoonOut 阅读(9) 评论(0) 推荐(0)
摘要: ssh config 中添加 RemoteForward 127.0.0.1:7890 127.0.0.1:7890。补档重传。 阅读全文
posted @ 2026-02-15 12:39 MoonOut 阅读(8) 评论(0) 推荐(0)
摘要: 提供了 MATH、GSM8K、AIME24 等常用数学数据集的 基本信息和链接。 阅读全文
posted @ 2026-02-13 13:13 MoonOut 阅读(64) 评论(0) 推荐(0)
摘要: REINFORCE++ 把 GRPO“prompt 小组内归一化优势”升级为“全局 batch 上标准化优势”,并搭配稳定的 KL 估计方式,比 PPO 轻量级,比 GRPO 稳定和泛化性强。 阅读全文
posted @ 2026-02-13 11:51 MoonOut 阅读(13) 评论(0) 推荐(0)
摘要: 2026.02 | 速读文章纪录 阅读全文
posted @ 2026-02-03 08:50 MoonOut 阅读(53) 评论(0) 推荐(0)
摘要: rsync -avzP --progress /本地/大文件.zip user@服务器IP:/目标/路径/ 阅读全文
posted @ 2026-01-30 13:34 MoonOut 阅读(167) 评论(0) 推荐(1)
摘要: 主要参考官方文档,介绍了如何基于 verl 使用 RL 微调大模型。 阅读全文
posted @ 2026-01-20 16:20 MoonOut 阅读(92) 评论(0) 推荐(0)
摘要: 主要参考知乎博客,介绍了如何基于 LLaMA-Factory 部署和 SFT 微调大模型。 阅读全文
posted @ 2026-01-10 17:22 MoonOut 阅读(49) 评论(0) 推荐(0)
摘要: 面对多任务 / 多目标学习中,可能相互冲突的梯度信号,现有方法通过加权、投影、统一符号等方法,调合这些梯度信号。 阅读全文
posted @ 2026-01-10 17:17 MoonOut 阅读(646) 评论(0) 推荐(1)
摘要: ARC-AGI benchmark 提供了基于视觉网格的谜题,它们是“对于人类简单、对于大模型困难”的问题。 阅读全文
posted @ 2026-01-07 19:57 MoonOut 阅读(486) 评论(0) 推荐(2)
摘要: 管理员打开 cmd,输入 netsh winsock reset,重启电脑就可以了。补档重传。 阅读全文
posted @ 2026-01-06 15:48 MoonOut 阅读(20) 评论(0) 推荐(0)
摘要: 最近读了一些在多轮(multi-turn)任务上用 RL 微调 LLM 的文章,记录阅读笔记。 阅读全文
posted @ 2026-01-03 16:54 MoonOut 阅读(60) 评论(0) 推荐(0)
摘要: InfoNCE loss 可以表示互信息的下界:I(X;Y) ≥ log N - L_InfoNCE 。 阅读全文
posted @ 2026-01-02 20:07 MoonOut 阅读(809) 评论(0) 推荐(0)
摘要: 2026.01 | 速读文章纪录 阅读全文
posted @ 2026-01-01 22:08 MoonOut 阅读(64) 评论(0) 推荐(0)
摘要: 2025.12 | 速读文章纪录 - 下半月 阅读全文
posted @ 2025-12-20 23:30 MoonOut 阅读(73) 评论(0) 推荐(0)
摘要: 简单看看近期的 Pb-MARL 工作。 阅读全文
posted @ 2025-12-15 14:20 MoonOut 阅读(47) 评论(0) 推荐(0)
摘要: offline meta RL 近期工作的速读记录。 阅读全文
posted @ 2025-12-13 17:36 MoonOut 阅读(739) 评论(0) 推荐(2)
摘要: offline meta RL 经典论文的速读记录。 阅读全文
posted @ 2025-12-07 10:35 MoonOut 阅读(1040) 评论(0) 推荐(1)
摘要: 2025.12 | 速读文章纪录 - 上半月 阅读全文
posted @ 2025-12-02 23:13 MoonOut 阅读(53) 评论(0) 推荐(0)
摘要: 存档,博士生资格考试的 20 篇文献。 阅读全文
posted @ 2025-11-29 15:04 MoonOut 阅读(1090) 评论(0) 推荐(2)
摘要: EQL 将单目标的 bellman 算子拓展到多目标 RL 上,并复刻了 value iteration 的收敛性保证。 阅读全文
posted @ 2025-11-22 21:18 MoonOut 阅读(880) 评论(0) 推荐(1)
摘要: 贾庆山老师团队的事件驱动优化 + 数据中心工作。 阅读全文
posted @ 2025-11-22 16:10 MoonOut 阅读(23) 评论(0) 推荐(0)
摘要: 2025.11 | 速读文章纪录 阅读全文
posted @ 2025-11-02 12:25 MoonOut 阅读(83) 评论(0) 推荐(0)
摘要: ① 用对比学习把参考轨迹的 embedding 尽可能拉远,② 使用 DIAYN reward 同时做模仿学习和 skill discovery。 阅读全文
posted @ 2025-10-31 00:50 MoonOut 阅读(108) 评论(0) 推荐(1)
摘要: 速读一下 IJCAI 2025 的 RL 相关论文。 阅读全文
posted @ 2025-10-08 20:53 MoonOut 阅读(655) 评论(4) 推荐(1)
摘要: 2025.10 | 速读文章纪录 阅读全文
posted @ 2025-10-02 23:00 MoonOut 阅读(115) 评论(0) 推荐(0)
摘要: 2025.09 | 速读文章纪录 阅读全文
posted @ 2025-09-02 14:16 MoonOut 阅读(90) 评论(0) 推荐(0)
摘要: 2025.08 | 速读文章纪录 阅读全文
posted @ 2025-08-06 14:10 MoonOut 阅读(57) 评论(0) 推荐(0)
摘要: 为 state space 训练一个紧凑的 embedding space,使得 embedding 间的距离与 temporal distance 相匹配,然后让 policy 尽可能覆盖 embedding space。 阅读全文
posted @ 2025-07-18 23:32 MoonOut 阅读(239) 评论(0) 推荐(0)
摘要: 用语义距离 d_lang(x,y) = cos_sim[ l(s_1), l(s_2)] ,来作为 metra 的 1-Lipschitz 约束。 阅读全文
posted @ 2025-07-16 17:50 MoonOut 阅读(210) 评论(0) 推荐(0)
摘要: 使用 LLM / CLIP 模型,输出 state / pixel observation 与人类意图的匹配程度,作为 dodont 的加权权重。 阅读全文
posted @ 2025-07-15 20:34 MoonOut 阅读(90) 评论(0) 推荐(0)
摘要: dodont 将好坏行为的分类器 p hat 融入了 metra 框架里,因此看起来很有直觉。 阅读全文
posted @ 2025-07-14 12:38 MoonOut 阅读(279) 评论(0) 推荐(1)
摘要: 2025.07 | 速读文章纪录 阅读全文
posted @ 2025-07-04 11:01 MoonOut 阅读(113) 评论(0) 推荐(0)
摘要: 偶然看到了 AIR-DREAM Lab 的主页,读一下。 阅读全文
posted @ 2025-06-13 22:15 MoonOut 阅读(131) 评论(0) 推荐(0)
摘要: 考虑一步策略改进,把选 action 的概率 $\pi (a|s)$ 当作变量,$\sum \pi (a|s) = 1$ 作为约束条件,使用拉格朗日乘子 $\lambda$ 干掉。对 $V^\text{new}(s)$ 求偏导,偏导数 = 0。 阅读全文
posted @ 2025-06-07 21:31 MoonOut 阅读(221) 评论(0) 推荐(0)
摘要: 2025.06 | 速读文章纪录 阅读全文
posted @ 2025-06-01 07:14 MoonOut 阅读(153) 评论(0) 推荐(0)
摘要: (一时半会写不完了) 阅读全文
posted @ 2025-05-11 17:43 MoonOut 阅读(195) 评论(0) 推荐(0)
摘要: 2025.05 | 速读文章纪录 阅读全文
posted @ 2025-05-02 17:47 MoonOut 阅读(164) 评论(0) 推荐(0)
摘要: git fetch origin, git stash, git checkout -b [] origin/[] 阅读全文
posted @ 2025-04-15 15:32 MoonOut 阅读(42) 评论(0) 推荐(0)