全書內容分為大數據系統基礎、Hadoop技術、Spark技術和項目實戰4部分。其中,Linux是學習大數據技術的基礎,先從Linux入手,打下堅實的基礎,之後才能更好地學習Hadoop和Spark。 4部分內容分別介紹如下。
大數據系統基礎篇通過大數據概述、Linux系統安裝、Linux系統基礎命令、Shell編程和MySQL數據操作,為以後編程奠定堅實的基礎。
Hadoop技術篇以Hadoop生態圈為中心,詳細介紹Hadoop高可用集群搭建、HDFS技術、MapReduce技術、Hive技術,為讀者學習大數據開發技術提供便利,並以實用的方式簡單介紹HBase、Sqoop、Flume工具的使用,使讀者在精通一門技術的前提下,能擴展了解相關知識,真正成為一專多能的專業型人才。
Spark技術篇從Spark概述、Scala語言、環境搭建、RDD核心技術、Spark SQL和機器學習等多方面講解Spark大數據的開發,從基礎的Scala語言開始學習,並以Hadoop環境為基礎搭建Spark大數據集群,從最基礎、最常用、最容易理解的思路出發,幫助讀者逐步掌握Spark大數據技術。
項目實戰篇從真實項目“電力能源大數據分析”中抽取一部分業務作為實戰解讀,通過簡潔的流程講解,使讀者了解大數據項目開發的整個過程