内容简介
第1章 深度强化学习概览
1.1 什么是深度强化学习
1.1.1 俯瞰强化学习
1.1.2 纵观深度学习
1.1.3 Hello,深度强化学习
1.2 深度强化学习的学习策略
1.3 本书的内容概要
参考文献
第2章 强化学习基础
2.1 真相——经典的隐马尔科夫模型(HMM)
2.1.1 HMM引例
2.1.2 模型的理解与推导
2.1.3 隐马尔科夫模型应用举例
2.2 逢考必过——马尔科夫决策过程(MDP)
2.2.1 MDP生活化引例
2.2.2 MDP模型
2.2.3 MDP模型引例
2.2.4 模型的理解
2.2.5 探索与利用(Exploitation & Exploration)
2.2.6 值函数和动作值函数
2.2.7 基于动态规划的强化学习问题求解
2.3 糟糕,考试不给题库——无模型(Model Free)强化学习
2.3.1 蒙特卡洛算法
2.3.2 时序差分算法
2.3.3 异步强化学习算法
2.4 学霸来了——强化学习之模仿学习
2.4.1 模仿学习(Imitation Learning)
2.4.2 逆向强化学习
本章总结
参考文献
第3章 深度学习基础
3.1 深度学习简史
3.1.1 神经网络发展史
3.1.2 深度学习的分类
3.1.3 深度学习的应用
3.1.4 深度学习存在的问题
3.2 深度学习的基础概念
3.2.1 深度学习总体感知
3.2.2 神经网络的基本组成
3.2.3 深度学习训练
3.2.4 梯度下降法
3.2.5 反向传播算法(BP)
3.3 数据预处理
3.3.1 主成分分析(PCA)
3.3.2 独立成分分析(ICA)
3.3.3 数据白化处理
3.4 深度学习的硬件基础
3.4.1 硬件基础介绍
3.4.2 GPU简介
3.4.3 CUDA编程
本章总结
参考文献
第4章 功能神经网络层
4.1 激活函数单元
4.2 池化层
4.3 参数开关Dropout
4.4 批量规范化层(Batch Normalization Layer)
4.5 全连接层
4.6 卷积神经网络
4.7 全卷积神经网络
4.8 循环神经网络(RNN)
4.9 深度学习的细节与技巧
4.9.1 数据扩增
4.9.2 参数初始化
4.9.3 训练当中的技巧
4.9.4 正则化
4.9.5 训练结果图像分析
4.9.6 模型集成
本章总结
参考文献
第5章 卷积神经网络(CNN)
5.1 卷积神经网络基础
5.1.1 卷积神经网络的历史
5.1.2 卷积神经网络的核心
5.2 卷积神经网络结构
5.2.1 深度卷积神经网络
5.2.2 深度卷积神经网络可视化
5.3 经典卷积神经网络架构分析
5.3.1 一切的开始——LeNet
5.3.2 王者回归——AlexNet
5.3.3 起飞的时候——VGG
5.3.4 致敬经典——GoogLeNet
5.3.5 没有最深只有更深——ResNet
5.4 生成对抗网络
5.4.1 生成对抗网络(GAN)基础
5.4.2 WGAN介绍
5.5 R-CNN简介
5.6 CNN的应用实例
本章总结
参考文献
第6章 循环神经网络(RNN)
6.1 RNN概览
6.2 长期依赖(Long Term Dependencies)问题
6.3 LSTM的变体
本章总结
参考文献
第7章 如何实现CNN——用C语言实现深度学习
7.1 如何写CMake文件
7.2 如何实现卷积神经网络
7.2.1 激活函数
7.2.2 池化函数
7.2.3 全连接层
7.3 卷积神经网络
7.3.1 CNN的构建
7.3.2 CNN的前向传播
7.3.3 CNN的反向传播
7.4 文件解析
本章总结
第8章 深度强化学习
8.1 初识深度强化学习
8.1.1 深度强化学习概览
8.1.2 记忆回放(Memory Replay)机制
8.1.3 蒙特卡洛搜索树
8.2 深度强化学习(DRL)中的值函数算法
8.2.1 DRL中值函数的作用
8.2.2 DRL中值函数理论推导
8.3 深度强化学习中的策略梯度(Policy Gradient)算法
8.3.1 策略梯度算法的作用和优势
8.3.2 策略梯度算法的理论推导
8.3.3 REINFORCE算法
8.3.4 策略梯度算法的优化
8.3.5 策略子-评价算法(Actor-Critic)
8.4 深度强化学习网络结构
参考文献
第9章 深度强化学习算法框架
9.1 深度Q学习网络
9.2 双Q学习
9.3 异步深度强化学习
9.4 异步优越性策略子-评价算法
9.5 DDPG算法
9.6 值迭代网络
本章总结
参考文献
第10章 深度强化学习应用实例
10.1 Flappy Bird应用
10.2 Play Pong应用
10.3 深度地形-自适应应用(Deep Terrain-Adaptive应用)
10.4 AlphaGo应用
10.4.1 独立算法的研究部分
10.4.2 A1phaGo算法
本章总结
参考文献
附录A常用的深度学习框架
标准1:与现有编程平台、技能整合的难易程度。
标准2:和相关机器学习、数据处理生态整合的紧密程度。
标准3:通过此平台做深度学习之外,还能做什么?
标准4:对数据量、硬件的要求和支持。
标准5:深度学习平台的成熟程度。
A1 Google的TensorFlow
A1.1 TensorFlow简介
A1.2 TensorFlow基础
A2 轻量级的MXNet
A2.1 MXNet介绍
A22MXNet基础
A3 来自UCLA的Caffe
A3.1 Caffe简介
A3.2 Caffe基础
A4 悠久的Theano
A4.1 Theano简介
A4.2 Theano基础
A5 30秒入门Keras
参考文献