《Dream to Control: Learning Behaviors by Latent Imagination》随记

博客地址:https://chuna2.787528.xyz/zylyehuo/

参考链接:从DreamerV1到DreamerV3|Model-based RL的学习之路

DreamerV1 的主要贡献

image

阶段一:学习世界模型(Dynamics Learning)

具体可以参考链接:《Learning Latent Dynamics for Planning from Pixels》随记

RSSM
image

阶段二:在潜空间中想象(Behavior Learning)

6c99777485e5da64f19017fc81feb0e3

要注意,其中只有 Actor 的参数可以通过反向传播更新参数,别的部分都是固定参数,不能更新。

image

如图所示,有三条路径(蓝线)对 Actor 进行反向传播。

image

阶段三:与环境交互(Environment Interaction)

image

PlaNet 和 Dreamer 的异同

PlaNet = 世界模型(RSSM) + 在线实时推演找最优解 。

Dreamer = 世界模型(RSSM) + 离线在梦境中训练 Actor/Critic + 依靠 Actor 实时反应 。

PlaNet 不是 Dreamer 的前奏,而是它的“前身”。Dreamer 是站在 PlaNet 的肩膀上,把耗时的“在线规划”替换成了更优雅、更具长远目光的“梦境 Actor-Critic 训练” 。

相同点

不管是 PlaNet 还是 Dreamer,它们认识世界的方式是一模一样的 。它们都会收集过去的经验,然后训练 RSSM(循环状态空间模型)。

image

不同点

有了“预测未来”的能力后,它们采取了不同的战术

image

posted @ 2026-03-15 20:38  zylyehuo  阅读(13)  评论(0)    收藏  举报