Actor-Critic 是价值学习和策略学习的结合.Actor 是策略网络,用来控制agent运动,可以看做是运动员.Critic 是价值网络,用来给动作打分,像是裁判. 4. Actor-Critic 4.1 价值网络与策略网络构建 a. 原理介绍 状态价值函数: $ V_\pi(s)=\sum_{{a}}\pi({a}|{s})\cdot Q_\pi({s},{a})$ (离散情况,如果是连续的需要换成定积分) V 是动作价值函数 \(Q_\pi\) 的期望,\(\pi({s}|{a})\