强化学习——PT招财进宝的问题?

监督学习、无监督学习、强化学習

? 强化学习的思路和人比较类似是在实践中学习
? 比如学习走路,如果摔倒了那么我们大脑后面会给一个负面的奖励值 =>这个走路姿勢不好;如果后面正常走了一步,那么大脑会给一个正面的奖励值 =>这是一个好的走路姿势

? 强化学习没有教师信号也没有label,即没有直接指令告诉机器该执行什么动作
? 反馈有延时不能立即返回
? 输入数据是序列数据,是一个连续的决策过程

比如AlphaGo下围棋的Agent可以不使用监督学习:
请一位围棋大师带我们遍历许多棋局,告诉我们每个位置的最佳棋步这个代价很贵expe nsive

? 很多情况下,没有最佳棋步因为一个棋步的好坏依赖于其后的多个棋步
? 使用强化学习,整个过程唯一的反馈是在最后(赢or输)

没有监督学习已经准备好的训练数据输出值强囮学习只有奖励值,但 是这个奖励值和监督学习的输出值不一样它不是事先给出的,而是延后给出的(比如走路 摔倒)

在非监督学习中既没有输出值也没有奖励值的只有数据特征,而强 化学习有奖励值(为负是为惩罚)此外非舰队学习与监督学习一样,数据之间也都昰独立的 没有强化学习这样的前后依赖关系

发布了79 篇原创文章 · 获赞 14 · 访问量 2万+

我要回帖

 

随机推荐