读论文-A Visual Analytics Approach to Understand Deep Q-Networks

type

status

date

slug

summary

REQUIREMENT ANALYSIS AND APPROACH OVERVIEW—-其实是开始之前大概规划一下

Design requirements

1 训练过程的overview

eg：the rewards or the model loss per episode（训练中奖励损失等如何变化） the distributions of actions and rewards（奖励和动作的分布（频率概率分布）随时间变化）

//是否有任何期望的模式会随着时间而更频繁地发生？

2 揭示经验数据中编码的代理行为模式

大量步骤中的整体行动/移动/奖励模式按需呈现其他类型的数据 q、qt的值、随机行动

3 通过代理的视角进行段分析和比较,增强分析功能

卷积滤波器在提取特征和对经验段进行行动预测方面的功能比较滤波器

Approach Overview

收集数据

代理程序的经验数据

模型的损失和网络参数

对经验数据进行预处理以提取有用的摘要统计信息，包括平均奖励、平均q值等

—>可视化

DQNViz的组件被组织成三个模块：（R1）模型统计、（R2）行为模式和（R3）段分析，通过四种可视化视图实现。这四个视图，按自顶向下的探索流程，以四个详细级别呈现收集的数据：整体训练级别（统计视图）、时期级别（时期视图）、episode级别（轨迹视图）和段级别（段视图）。

❓

在训练阶段，随机率 ε 起始为1，经过100万个步骤（即4个训练epochs）逐渐下降至0.1，并一直保持在0.1直到训练结束。在测试阶段，ε 始终保持为0.05。在数据收集过程中，如果一个动作是随机选择的，我们仍然使用DQN来计算其 q 值和 qt 值，尽管要执行的动作是随机生成的一个。

⭐重点-具体的可视化模块

1 整体训练

DQNViz系统使用了统计图(线图和堆积面积图)来呈现DQN模型的总体训练统计信息。主要包括:

使用小多项式线图展示训练过程中不同汇总统计量的变化趋势,如每个episode的平均奖励、模型损失等。

使用堆积面积图展示动作和奖励的分布以及它们随时间的演变。例如,动作分布是否会在后期训练阶段变得稳定。

线图能够反映诸如agent行为的一些动作/移动/奖励统计信息,例如某些预定义的模式随时间出现的频率等。

不同图表通过交互进行了链接,例如悬停一个图表会在其它图表上显示对应信息。

2 epoch层面

使用饼图和堆积条形图组合的可视化展示选定epoch的汇总统计信息,包括:

饼图显示当前epoch中所有步骤的动作/奖励分布。

堆积条形图显示当前epoch每个episode的动作/奖励分布。条形图按episode步数排序。

两个图表通过交互关联。例如,悬停饼图中的一个扇形会高亮条形图中对应的部分。

默认展示动作和奖励的分布,但用户可以配置展示其他变量。

3 episode层面

设计了轨迹视图来探索一个epoch中的所有步骤,并揭示所有episode中的动作/奖励模式

将一个episode中的数据视为事件序列,尝试了多种可视化设计来呈现agent的移动模式。

最终设计中使用曲线表示踏板的位移来反映agent的移动模式。并在曲线上叠加动作和其他数据(奖励、随机动作等)。

引入了段聚类和模式挖掘技术,利用正则表达式定义模式,以提供agent行为的洞见。

支持多种数据类型的灵活展示,以方便全面推理。

4 segment层面

允许用户查看agent的视角,分析网络内部运行情况。主要工作包括:

使用guided backpropagation技术,展示每个卷积滤波器从输入状态中提取的特征。

设计了三个子视图进行分析,包括平行条形图、PCA视图和平均状态视图。

支持选择不同的segment进行滤波器比较,以及跟踪同一segment在不同训练阶段的变化。

这些可视化揭示了agent通过卷积滤波器解析游戏屏幕状态的方式,满足了从agent视角分析的需求(R3)。

🌛

晚安梦里见