课程简介
课程强调从零开始,动手操作;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解强化学习的模型理论和代码实践,梳理强化学习的技术框架,从根本上解决如何使用模型、优化模型的问题;每次课中,首先阐述算法理论和少量公式推导,然后使用真实和模拟数据,进行数据挖掘、机器学习、深度学习、强化学习的数据分析、特征选择、调参和结果比较。
目标收益
数据挖掘、机器学习、深度学习的技术工程师; 对强化学习有一定基础或致力于该方向研究的技术人员
培训对象
课程内容
第一章 强化学习概述,0.5小时
1.强化学习的定义和原理
2.智能体的组成
3.强化学习和其他机器学习的关系
4.强化学习的分类
5.强化学习的研究方法
6.强化学习的重点概念
第二章 马尔可夫决策过程,1。5小时
1.马尔可夫性
2.马尔可夫过程
3.马尔可夫决策过程
4.贝尔曼期望方程
5.贝尔曼最优方程
6.最优策略
第三章 动态规划,1小时
1.动态规划基本思想
2.策略评估
3.策略改进
4.策略迭代算法
5.值迭代算法
代码和案例实践:网格世界寻宝
6.网格世界环境描述
7.策略迭代算法运行流程
8.值迭代算法运行流程
9.核心代码演示
10.算法小结
第四章 蒙特卡罗,1.5小时
1.蒙特卡罗核心思想
2.蒙特卡罗评估
3.增量式方法
4.蒙特卡罗控制
5.在线策略/离线策略
6.在线策略蒙特卡罗算法
7.重要性采样离线策略蒙特卡罗算法
8.加权重要性采样离线策略蒙特卡罗算法
代码和案例实践: “十点半”游戏
9.游戏介绍及环境描述
10.在线策略蒙特卡罗算法运行流程
11.加权重要性采样离线策略蒙特卡罗算法运行流程
12.核心代码演示
13.算法小结
第五章 时序差分,1.5小时
1.时序差分简介、TD目标值 / TD 误差
2.DP/MC/TD对比
3.在线策略TD:Sarsa算法
4.离线策略TD:Q-learning算法
代码和案例实践:带陷阱的网格世界寻宝
5.环境描述
6.Sarsa算法运行流程
7.Q-learning算法运行流程
8.核心代码演示
9.算法小结
进阶篇:
第六章 资格迹,0.5小时
1.前向视角/后向视角
2.多步TD
3.前向TD(λ)算法
4.后向TD(λ)算法
5.前向Sarsa(λ)算法
6.后向Sarsa(λ)算法
7.前向Watkins’s Q(λ)算法
8.后向Watkins’s Q(λ)算法
代码和案例实践:风格子世界
9.环境描述
10.后向Sarsa (λ) 算法运行流程
11.后向Watkins’s Q(λ)算法运行流程
12.核心代码演示
13.算法小结
第七章 值函数逼近,1小时
1.表格型强化学习/函数近似型强化学习
2.线性逼近/非线性逼近
3.增量法
4.值函数逼近-Sarsa算法
5.批量法
6.值函数逼近-Q-learning算法
7.人工神经网络(卷积、池化、全连接)
8.DQN方法
9.Double DQN方法
10.Dueling DQN方法
代码和案例实践飞翔的小鸟
11.游戏简介及环境描述
12.DQN算法运行流程
13.核心代码演示
14.算法小结
第八章 随机策略梯度,1小时
1.随机策略梯度简介
2.策略梯度优缺点
3.策略梯度方法分类
4.随机策略梯度定理
5.REINFORCE方法
6.带基线的REINFORCE方法
代码和案例实践:小车上山
7.游戏简介及环境描述
8.REINFORCE算法运行流程
9.核心代码演示
10.算法小结
第九章 Actor-Critic及变种,1小时
1.AC与带基线 REINFORCE的不同
2.在线策略AC方法
3.离线策略AC方法
4.兼容性近似函数定理
5.A2C方法
6.异步方法简介及核心思想
7.异步 Q-learning 方法
8.异步 Sarsa 方法
9.异步 n步 Q-learning方法
10.A3C方法
代码和案例实践:小车倒立摆
11.游戏简介及环境描述
12.AC算法运行流程
13.核心代码演示
14.算法小结
代码和案例实践:钟摆
15.游戏简介及环境描述
16.A3C算法运行流程
17.核心代码演示
18.算法小结
第十章 确定性策略梯度,0.5小时
1.确定性策略
2.随机策略梯度的缺陷
3.确定性策略梯度定理
4.在线策略确定性AC方法
5.离线策略确定性AC方法
6.兼容性近似函数定理
7.DDPG方法
代码和案例实践钟摆
8.游戏简介及环境描述
9.DDPG算法运行流程
10.核心代码演示
11.算法小结
第十一章 逆强化学习,0.5小时
背景(没有奖励的场景)
有监督思维下的建模方式
行为监督的问题
逆强化学习(IRL)框架
IRL vs GAN
模仿学习
第十二章 博弈强化学习,0.5小时
1.博弈及博弈树
2.极大极小搜索
3.Alpha-Beta 搜 索
4.蒙特卡罗树搜索
5.AlphaGo基本原理
6.AlphaGo神经网络
7.AlphaGo蒙特卡罗树搜索
8.AlphaGo的整体思路
9.AlphaGo Zero下棋原理
10.AlphaGo Zero的网络结构
11.AlphaGo Zero的蒙特卡罗树搜索
12.AlphaGo Zero总结
13.AlphaZero
代码和案例实践:五子棋
14.游戏简介及环境描述
15.算法运行流程(MCTS算法和 MCTS+神经网络算法)
16.核心代码演示
17.算法小结