《Dream to Control: Learning Behaviors by Latent Imagination》随记

博客地址：https://chuna2.787528.xyz/zylyehuo/

参考链接：从DreamerV1到DreamerV3｜Model-based RL的学习之路

DreamerV1 的主要贡献

具体可以参考链接：《Learning Latent Dynamics for Planning from Pixels》随记

RSSM

6c99777485e5da64f19017fc81feb0e3

要注意，其中只有 Actor 的参数可以通过反向传播更新参数，别的部分都是固定参数，不能更新。

如图所示，有三条路径（蓝线）对 Actor 进行反向传播。

PlaNet = 世界模型（RSSM） + 在线实时推演找最优解。

Dreamer = 世界模型（RSSM） + 离线在梦境中训练 Actor/Critic + 依靠 Actor 实时反应。

PlaNet 不是 Dreamer 的前奏，而是它的“前身”。Dreamer 是站在 PlaNet 的肩膀上，把耗时的“在线规划”替换成了更优雅、更具长远目光的“梦境 Actor-Critic 训练” 。

不管是 PlaNet 还是 Dreamer，它们认识世界的方式是一模一样的。它们都会收集过去的经验，然后训练 RSSM（循环状态空间模型）。

有了“预测未来”的能力后，它们采取了不同的战术

posted @ 2026-03-15 20:38 zylyehuo 阅读(13) 评论(0) 收藏举报

刷新页面返回顶部