强化学习-Q learning | MasterYe Blog

type

status

date

slug

summary

强化学习

概念

💡

寻求某任务的最优解，例如像推箱子等小游戏，提出三个要素，

此时的状态state，要做的动作action，获得的奖励rewards，当得分或不被淘汰rewards越大否则越小，建立某一算法，在已知状态的情况下，获得所有动作的奖励值，以此一步步走下去获得最高奖励值。

后面再写

举例

有16个状态 4种动作我们想要所有情况下的奖励（比如我在0位置向右走的奖励），所以我们先初始化16*4的矩阵都为0 接下来用以下代码来训练出16*4的矩阵为我们想要的样子

gym库请自行查阅文档不过我也可能后面写zzzz

这段代码的前提是我已经让他随机的跑了很多次游戏有很多数据拿来训练

用的是时序差分思想，用稍微确定的值去更新稍微不确定的值，本质是DP算法。

最后可以得到一个Q的二维数组

之后进行游戏时就可以根据Q随时采取最佳策略通关乐

👨‍💻

The End~