本書共分3部分,主要介紹如何使用Python語言來處理大型數據集。
第1部分介紹map和reduce編程風格,以及Python中基礎的map和reduce函數,
並介紹如何將對象持久化,通過惰性函數和並行函數來加快大型數據集的處理速度。
第2部分介紹Hadoop和Spark框架,以及如何使用mrjob庫來編寫Hadoop作業,
如何實現PageRank算法,如何使用Spark來實現決策樹和隨機森林的機器學習模型。
第3部分重點介紹雲計算和雲存儲的基礎知識,包括如何通過boto3的Python庫將文件上傳到AWS S3服務,
以及如何在AWS的EMR集群中運行分佈式的Hadoop和Spark作業。
本書適合有一定Python編程基礎,且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。