type
status
date
slug
summary
tags
category
icon
password
强化学习
概念
寻求某任务的最优解,例如像推箱子等小游戏,提出三个要素,
此时的状态state,要做的动作action,获得的奖励rewards,当得分或不被淘汰rewards越大否则越小,建立某一算法,在已知状态的情况下,获得所有动作的奖励值,以此一步步走下去获得最高奖励值。
时序差分算法
后面再写
Q-learning
举例
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fc466f1d4-a794-4e9f-bdf9-13b19f8600bc%2F2d64c97e-dc98-4a05-b8f1-bba2d898b91d%2FUntitled.png?table=block&id=8571a301-9e77-4a66-955c-ae8dbe96f8bf)
有16个状态 4种动作 我们想要所有情况下的奖励(比如我在0位置向右走的奖励),所以我们先初始化16*4的矩阵都为0 接下来用以下代码来训练出16*4的矩阵为我们想要的样子
gym库请自行查阅文档 不过我也可能后面写zzzz
这段代码的前提是我已经让他随机的跑了很多次游戏 有很多数据拿来训练
Q-learning算法关键
用的是时序差分思想,用稍微确定的值去更新稍微不确定的值,本质是DP算法。
最后可以得到一个Q的二维数组
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fc466f1d4-a794-4e9f-bdf9-13b19f8600bc%2F283f5c06-1cb9-4eea-b3ea-f471d1db70c3%2FUntitled.png?table=block&id=ae9b77a9-28fd-42af-abd0-712a46888c68)
之后进行游戏时就可以根据Q随时采取最佳策略通关乐
The End~
- 作者:MasterYe
- 链接:https://www.masterye.xyz//article/AI-4
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章