本書構建了一個完整的強化學習入門路徑，深入淺出地介紹了強化學習算法的基本原理和實現方法。本書首先回顧了相關預備知識，包括數學基礎和機器學習基礎，然後先介紹強化學習的基本概念，給出強化學習的數學框架（馬爾可夫決策過程），隨後介紹強化學習的求解算法，包括表格求解法（動態規劃法、蒙特卡洛法和時序差分法），以及近似求解法（值函數近似法、策略梯度法和深度強化學習）。本書最後一部分為實踐與前沿，實踐部分基於一個相同的例子實現了強化學習領域的主流基礎算法，前沿部分介紹了強化學習領域的** 研究進展。本書配有相當數量的習題供練習，配套代碼基於 Python 實現，源代碼均已開源，可開放獲取。本書可作為理工科本科生、研究生的“強化學習”課程的教材，也可作為相關從業者掌握強化學習的入門參考書。

出版社

圖書專售

電商零售

強化學習 (微課版)

出版社

圖書專售

電商零售

Site Breadcrumb

強化學習 (微課版)

Brand Slider