强化学习采用策略梯度技术来更新策略参数,其核心公式为