本書介紹Spark應用開發的面向對象和函數式編程概念,討論RDD和DataFrame基本抽象,講述如何使用SparkSQL、GraphX和Spark來開發可擴展的、容錯的流式應用程序,最後介紹監控、配置、調試、測試和開發等高級主題。通過本書的學習,你將能使用SparkR和PySpark API開發Spark應用程序,使用Zeppelin進行交互式數據分析,使用Alluxio進行內存數據處理,將透徹理解Spark,並能對海量數據執行全棧數據分析,最終成為數據科學家。