什么是强化学习?
两部分 三要素
在 Flappy bird 中
agent | environment | state | action | reward |
---|---|---|---|---|
鸟 | 鸟周围的环境,水管、天空(包括小鸟本身) | 拍个照(目前的像素) | 向上向下动作 | 距离(越远奖励越高) |
动一下截个图 再决定下一个动作
跟环境交互,决策。
奖励是延迟的。迷宫走完,才有奖励。
强化学习和其他机器学习的关系
监督样本一般样本内无关系。强化学习,样本之间相互影响。
基于价值会向固定方向走,基于策略随机性更高一些。
RL agent <-> environment 交互接口
reset 重置
render 渲染目前
step 交互一步
Step 输出参数
- 1-36 位置(36格内的位置)
- -1 reward(奖励,每走一步会有惩罚,目标最少步数走完)
- true/false 游戏是否完成
- info 额外信息
git clone --depth=1
depth 用于指定克隆深度,为 1 即表示只克隆最近一次 commit. 可以解决项目过大的问题
总结
图片来源:PARL 强化学习公开课 Lesson1