本書首先介紹在強化學習環境中工作所需的工具、庫和設置,涵蓋了強化學習的構成模塊,
深入探討基於值的方法,如Q-learning和SARSA算法的應用。
讀者將學習如何結合使用Q-learning和神經網絡來解決複雜問題。
此外,在學習*d*dPG和TD3確定性算法之前,讀者將學習策略梯度方法,如TRPO和PPO,以提高性能和穩定性。
本書還介紹模仿學習的原理,以及Dagger如何教智能體飛行。
讀者將探索進化策略和黑盒優化技術。
最後,讀者將掌握探索方法,如UCB和UCB1,並開發一個名為ESBAS的元算法。