带基准线的REINFORCE算法