本書三位作者致力於人工智能和數據分析領域的工作,曾為世界各地的公司和政府機構構建數據科學和人工智能項目,本書是他們十餘年實踐經驗的結晶。書中不僅介紹大規模機器學習的基本概念,還包含豐富的案例研究,全部內容均針對最實用的技術和工具,對理論細節不作深入討論。不管是初學者、普通用戶還是專家級用戶,通過閱讀本書都能瞭解和掌握如何利用Python進行大規模機器學習。
本書由淺入深講解大量實例,圖文並茂呈現每一步的操作結果,可幫助你更好地掌握大規模機器學習所需的Python技術,包括基於Scikit-learn可擴展學習、 Liblinear和Vowpal Wabbit快速支持向量機、基於Theano與H2O的大規模深度學習方法、TensorFlow深度學習技術與在線神經網絡方法、大規模分類和回歸樹的可擴展解決方案、大規模無監督學習(PCA、聚類分析和主題建模等)擴展方法、Hadoop和Spark分佈式環境、Spark機器學習實踐以及Theano和GPU計算的基礎知識等。
隨著大數據的興起,對計算及算法效率的需求不斷增加。本書介紹一組新的機器學習算法,它們能夠滿足這類擴展需求,並提高預測準確性。本書首先介紹可擴展的機器學習算法,這些算法的可擴展性可分為三級:第一級是可用於台式電腦的加速算法;第二級是較新算法,專門為可擴展性而設計,可以處理更大的文件;第三級涉及在大數據環境中進行機器學習。本書還將介紹基於Hadoop中的MapReduce框架和Python中的Spark進行高效機器學習的新技術。
通過閱讀本書,你將學習:
應用可擴展性較好的機器學習算法
使用較新的大規模機器學習技術
以深度學習和可擴展數據處理技術來提高預測準確性
在Spark中使用MapReduce框架
通過Spark和Hadoop應用有效的機器學習算法
構建強大的可擴展集成
通過單機處理極端大型數據集,使用數據流訓練線性和非線性預測模型