强化学习 Day 1 | Random thoughts

什么是强化学习？

在 Flappy bird 中

agent	environment	state	action	reward
鸟	鸟周围的环境，水管、天空（包括小鸟本身）	拍个照（目前的像素）	向上向下动作	距离（越远奖励越高）

动一下截个图再决定下一个动作
跟环境交互，决策。

奖励是延迟的。迷宫走完，才有奖励。

监督样本一般样本内无关系。强化学习，样本之间相互影响。

基于价值会向固定方向走，基于策略随机性更高一些。

reset 重置
render 渲染目前
step 交互一步

depth 用于指定克隆深度，为 1 即表示只克隆最近一次 commit. 可以解决项目过大的问题

Pikachu

I am a real pikachu!