什么是强化学习?

两部分 三要素


在 Flappy bird 中

agent environment state action reward
鸟周围的环境,水管、天空(包括小鸟本身) 拍个照(目前的像素) 向上向下动作 距离(越远奖励越高)

动一下截个图 再决定下一个动作
跟环境交互,决策。

奖励是延迟的。迷宫走完,才有奖励。

强化学习和其他机器学习的关系



监督样本一般样本内无关系。强化学习,样本之间相互影响。

基于价值会向固定方向走,基于策略随机性更高一些。

RL agent <-> environment 交互接口


reset 重置
render 渲染目前
step 交互一步

Step 输出参数

  1. 1-36 位置(36格内的位置)
  2. -1 reward(奖励,每走一步会有惩罚,目标最少步数走完)
  3. true/false 游戏是否完成
  4. info 额外信息

git clone --depth=1

depth 用于指定克隆深度,为 1 即表示只克隆最近一次 commit. 可以解决项目过大的问题

总结

拓展:为什么有人说 Python 的多线程是鸡肋呢?

图片来源:PARL 强化学习公开课 Lesson1

I am a real pikachu!