本書構建了一個完整的強化學習入門路徑,深入淺出地介紹了強化學習算法的基本原理和實現方法。本書 首先回顧了相關預備知識,包括數學基礎和機器學習基礎,然後先介紹強化學習的基本概念,給出強化學習的 數學框架(馬爾可夫決策過程),隨後介紹強化學習的求解算法,包括表格求解法(動態規劃法、蒙特卡洛法 和時序差分法),以及近似求解法(值函數近似法、策略梯度法和深度強化學習)。本書最後一部分為實踐與前 沿,實踐部分基於一個相同的例子實現了強化學習領域的主流基礎算法,前沿部分介紹了強化學習領域的** 研究進展。本書配有相當數量的習題供練習,配套代碼基於 Python 實現,源代碼均已開源,可開放獲取。 本書可作為理工科本科生、研究生的“強化學習”課程的教材,也可作為相關從業者掌握強化學習的入門 參考書。