深入大型數據集：並行與分佈化 Python 代碼 (Mastering Large Datasets: Parallelize and Distribute Your Python Code)

作者： Wolohan, J. T.
譯者： Wolohan, J. T. 張若飛
出版社：電子工業
出版日期： 2021-01-01
ISBN碼： 9787121403682
編號： 9787121403682

$ 564 元 ~~原價 564~~

立即前往

$564
庫存頁面

內容介紹

本書共分3部分，主要介紹如何使用Python語言來處理大型數據集。
第1部分介紹map和reduce編程風格，以及Python中基礎的map和reduce函數，
並介紹如何將對象持久化，通過惰性函數和並行函數來加快大型數據集的處理速度。
第2部分介紹Hadoop和Spark框架，以及如何使用mrjob庫來編寫Hadoop作業，
如何實現PageRank算法，如何使用Spark來實現決策樹和隨機森林的機器學習模型。
第3部分重點介紹雲計算和雲存儲的基礎知識，包括如何通過boto3的Python庫將文件上傳到AWS S3服務，
以及如何在AWS的EMR集群中運行分佈式的Hadoop和Spark作業。
本書適合有一定Python編程基礎，且希望掌握大型數據集處理能力的開發人員和數據科學家閱讀。

出版社

圖書專售

電商零售

深入大型數據集：並行與分佈化 Python 代碼 (Mastering Large Datasets: Parallelize and Distribute Your Python Code)

出版社

圖書專售

電商零售

Site Breadcrumb

深入大型數據集：並行與分佈化 Python 代碼 (Mastering Large Datasets: Parallelize and Distribute Your Python Code)

Brand Slider