Value-based vs policy-based


policy based : 直接求action
policy based: 输出动作的概率


最后一层 softmax
episode: 每轮游戏
优化目的: max 每个episode的总reward


环境的随机性无法控制

期望回报


环境概率是未知的, N是 episode数。

优化策略函数


优化目标 期望回报最大, 梯度上升


蒙特卡洛每个 Episode 更新一次, 时序差分每个action更新一次

根据公式反向推到G1G_1

Reinforce

每个 Episode , 通过 (st,at)(s_t, a_t) 求出 G_t, 对于每一步使用 ln 函数更新神经网络参数值

类比 Cross entrophy, 因为sum_ln 不一定是正确的acition, 只是真实的action, 所以需要乘上总奖励系数 G

流程图

总结


I am a real pikachu!