強化學習是一種重要的機器學習方法,在智能體及分析預測等領域有許多應用。本書共13章,主要包括強化學習的各種要素,即智能體、環境、策略和模型以及相應平臺和庫;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安裝配置;馬爾可夫鏈和馬爾可夫過程及其與強化學習問題建模之間的關係,動態規劃的基本概念;蒙特卡羅方法以及不同類型的蒙特卡羅預測和控制方法;時間差分學習、預測、離線/在線策略控制等;多臂賭博機問題以及相關的各種探索策略方法;深度學習的各種基本概念和RNN、LSTM、CNN等神經網絡;深度強化學習算法DQN,以及雙DQN和對抗網絡體系結構等改進架構;DRQN以及DARQN;A3C網絡的基本工作原理及架構;策略梯度和優化問題;*後介紹了強化學習的*新進展以及未來發展。