本書基於電腦類專業對大數據平臺技術和大規模數據處理的實戰需求,在闡述數據科學、Hadoop和Spark配置要點和大數據處理周期的基礎上,重點闡述大數據採集與存儲、預處理、特徵工程、數據可視化分析、機器學習基礎等大數據處理技術及其Python實現,以及基於Hadoop和Spark平臺的Python接口調用和機器學習編程實例分析。本書既強調了大數據處理周期的基本原理和關鍵技術,又突出機器學習算法及其在分佈式系統中的應用編程方法。 本書可作為高等院校電腦、大數據、人工智能、軟件工程等專業的教材,也可作為大數據技術研發人員和研究生的學習參考用書。