type
status
date
slug
summary
tags
category
icon
password

强化学习

概念
💡
寻求某任务的最优解,例如像推箱子等小游戏,提出三个要素,
此时的状态state,要做的动作action,获得的奖励rewards,当得分或不被淘汰rewards越大否则越小,建立某一算法,在已知状态的情况下,获得所有动作的奖励值,以此一步步走下去获得最高奖励值。

时序差分算法

后面再写

Q-learning

举例
notion image
有16个状态 4种动作 我们想要所有情况下的奖励(比如我在0位置向右走的奖励),所以我们先初始化16*4的矩阵都为0 接下来用以下代码来训练出16*4的矩阵为我们想要的样子
gym库请自行查阅文档 不过我也可能后面写zzzz
这段代码的前提是我已经让他随机的跑了很多次游戏 有很多数据拿来训练

Q-learning算法关键

用的是时序差分思想,用稍微确定的值去更新稍微不确定的值,本质是DP算法
最后可以得到一个Q的二维数组
notion image
之后进行游戏时就可以根据Q随时采取最佳策略通关乐
 
 
 
👨‍💻
The End~
线性回归头歌课程总结—NumPy高级