type
status
date
slug
summary
tags
category
icon
password
前情提要 一些概念
episode:一次游戏 无论成功或失败
batch size:一批一批地加载数据,每次送进去的数量就是batch_size
epoch:一次大的训练过程
iteration:一个epoch的数据=batch_size * iteration 每经过一个iteration,参数更新一次

REQUIREMENT ANALYSIS AND APPROACH OVERVIEW—-其实是开始之前大概规划一下

Design requirements

1 训练过程的overview

eg:the rewards or the model loss per episode(训练中奖励损失等如何变化) the distributions of actions and rewards(奖励和动作的分布(频率概率分布)随时间变化)
//是否有任何期望的模式会随着时间而更频繁地发生?

2 揭示经验数据中编码的代理行为模式

大量步骤中的整体行动/移动/奖励模式 按需呈现其他类型的数据 q、qt的值、随机行动

3 通过代理的视角进行段分析和比较,增强分析功能

卷积滤波器在提取特征和对经验段进行行动预测方面的功能 比较滤波器

Approach Overview

收集数据
代理程序的经验数据
模型的损失和网络参数
对经验数据进行预处理以提取有用的摘要统计信息,包括平均奖励、平均q值等
—>可视化
DQNViz的组件被组织成三个模块:(R1)模型统计、(R2)行为模式和(R3)段分析,通过四种可视化视图实现。这四个视图,按自顶向下的探索流程,以四个详细级别呈现收集的数据:整体训练级别(统计视图)、时期级别(时期视图)、episode级别(轨迹视图)和段级别(段视图)。
 
 
在训练阶段,随机率 ε 起始为1,经过100万个步骤(即4个训练epochs)逐渐下降至0.1,并一直保持在0.1直到训练结束。在测试阶段,ε 始终保持为0.05。在数据收集过程中,如果一个动作是随机选择的,我们仍然使用DQN来计算其 q 值和 qt 值,尽管要执行的动作是随机生成的一个。

⭐重点-具体的可视化模块

1 整体训练

DQNViz系统使用了统计图(线图和堆积面积图)来呈现DQN模型的总体训练统计信息。主要包括:
  1. 使用小多项式线图展示训练过程中不同汇总统计量的变化趋势,如每个episode的平均奖励、模型损失等。
  1. 使用堆积面积图展示动作和奖励的分布以及它们随时间的演变。例如,动作分布是否会在后期训练阶段变得稳定。
  1. 线图能够反映诸如agent行为的一些动作/移动/奖励统计信息,例如某些预定义的模式随时间出现的频率等。
  1. 不同图表通过交互进行了链接,例如悬停一个图表会在其它图表上显示对应信息。

2 epoch层面

使用饼图和堆积条形图组合的可视化展示选定epoch的汇总统计信息,包括:
  1. 饼图显示当前epoch中所有步骤的动作/奖励分布。
  1. 堆积条形图显示当前epoch每个episode的动作/奖励分布。条形图按episode步数排序。
  1. 两个图表通过交互关联。例如,悬停饼图中的一个扇形会高亮条形图中对应的部分。
  1. 默认展示动作和奖励的分布,但用户可以配置展示其他变量。

3 episode层面

设计了轨迹视图来探索一个epoch中的所有步骤,并揭示所有episode中的动作/奖励模式
  1. 将一个episode中的数据视为事件序列,尝试了多种可视化设计来呈现agent的移动模式。
  1. 最终设计中使用曲线表示踏板的位移来反映agent的移动模式。并在曲线上叠加动作和其他数据(奖励、随机动作等)。
  1. 引入了段聚类和模式挖掘技术,利用正则表达式定义模式,以提供agent行为的洞见。
  1. 支持多种数据类型的灵活展示,以方便全面推理。

4 segment层面

允许用户查看agent的视角,分析网络内部运行情况。主要工作包括:
  1. 使用guided backpropagation技术,展示每个卷积滤波器从输入状态中提取的特征。
  1. 设计了三个子视图进行分析,包括平行条形图、PCA视图和平均状态视图。
  1. 支持选择不同的segment进行滤波器比较,以及跟踪同一segment在不同训练阶段的变化。
这些可视化揭示了agent通过卷积滤波器解析游戏屏幕状态的方式,满足了从agent视角分析的需求(R3)。
🌛
晚安 梦里见
线性分类Breakout-v5 强化学习环境学习