Q-Learning,学习Action对应期望值(Expected Utility).1989年,Watkins提出.收敛性,1992年,Watkins和Dayan共同证明.学习期望价值,从当前一步到所有后续步骤,总期望获取最大价值(Q值.Value).Action->Q函数,最佳策略,在每个state下,选择Q值最高的Action.不依赖环境模型.有限马尔科夫决策过程(Markov Dectision Process) ,Q-Learning被证明最终可以找到最优策略. Q-Learning目