Policy Gradient

Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。

如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表，只能对policy进行参数化。

然后它能处理连续action输出的问题。