Value-based vs policy-based

policy based : 直接求action
policy based: 输出动作的概率


最后一层 softmax
episode: 每轮游戏
优化目的: max 每个episode的总reward


环境的随机性无法控制
期望回报

环境概率是未知的, N是 episode数。
优化策略函数

优化目标 期望回报最大, 梯度上升


蒙特卡洛每个 Episode 更新一次, 时序差分每个action更新一次

根据公式反向推到
Reinforce
每个 Episode , 通过 求出 G_t, 对于每一步使用 ln 函数更新神经网络参数值

类比 Cross entrophy, 因为sum_ln 不一定是正确的acition, 只是真实的action, 所以需要乘上总奖励系数 G

流程图

总结


