最近读的 MARL 文章


鸣谢专家提供论文列表。


01 MARL 算法

[MADDPG] Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

  • 来源:NeurIPS 2017。
  • 主要内容:
    • Dec-POMDP:把介绍照抄一遍。
    • CTDE(centralized training with decentralized execution):训练多个 agent 时,可以联合训练,但 evaluate 时,每个 agent 只能看到自己的局部信息。比如,我们可以使用 actor-critic 结构,训练时,训练一个各个 agent 的联合的 critic \(Q(s_1, \cdots, s_N, a_1, \cdots, a_N)\),并且为每个 action 训练一个 actor \(\pi_i(a_i|s_i)\);在 evaluate 的时候,只使用每个 agent 的 actor。
    • MADDPG 的两个关键公式,很简单。没看懂 4.2 节在说什么。实验做了 MPE 环境。
  • 参考意义:

[VDN] Value-Decomposition Networks For Cooperative Multi-Agent Learning

[QMIX] Monotonic value function factorisation for deep multi-agent reinforcement learning

[COMA] Counterfactual Multi-Agent Policy Gradients

FACMAC: Factored Multi-Agent Centralised Policy Gradients

[MAPPO] The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games

02 MARL 环境

MPE、mujoco

其他环境

SMAC

SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning

JaxMARL: Multi-Agent RL Environments and Algorithms in JAX



posted @ 2025-05-11 17:43  MoonOut  阅读(160)  评论(0)    收藏  举报