Spark作為新興的、應用範圍最為廣泛的大資料處理開源框架引起了廣泛的關注,它吸引了大量程式設計和開發人員進行相關內容的學習與開發,其中MLlib是Spark框架使用的核心。本書是一本細緻介紹Spark MLlib程式設計的圖書,入門簡單,示例豐富。 本書分為13章,從Spark基礎安裝和配置開始,依次介紹MLlib程式設計基礎、MLlib的資料物件構建、MLlib中RDD使用介紹,各種分類、聚類、回歸等資料處理方法,最後還通過一個完整的實例,回顧了前面的學習內容,並通過代碼實現了一個完整的分析過程。 本書理論內容由淺而深,採取實例和理論相結合的方式,講解細緻直觀,適合Spark MLlib初學者、大資料分析和挖掘人員,也適合高校和培訓學習相關專業的師生教學參考。