本書討論大規模連續空間的強化學習理論及方法,重點介紹使用函數逼近的強化學習和動態規劃方法。該研究已成為近年來電腦科學與技術領域中最活躍的研究分支之一。
全書共分6 章。第1 章為概述;第2 章為動態規劃與強化學習介紹;第3 章為大規模連續空間中的動態規劃與強化學習;第4 章為基於模糊表示的近似值迭代;第5 章為用於在線學習和連續動作控制的近似策略迭代;第6 章為基於交叉熵基函數優化的近似策略搜索。
本書可以作為理工科高等院校電腦專業和自動控制專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。