本書主要分析Hadoop 3.2.0的新特性和新功能,共5章。首先簡單介紹Hadoop,讓剛接觸Hadoop的讀者對它有個基本瞭解; 接著介紹目前使用比較多的分佈式文件系統HDFS,內容涉及NameNode 的原理、HA、HDFS Federation和HDFS 3.0中新增的特性;然後從應用管理和資源調度這兩個方面介紹一個通用的資源管理平臺YARN;再後討論如何在YARN平臺中運行應用,比如如何將應用遷移到YARN平臺,以及非Hadoop的應用是如何兼容YARN模式的。最後,書中給出了一些工作實戰指南,包括如何搭建一個生產可用的Hadoop 3.0集群;如何將現有Hadoop 2.0集群升級到Hadoop 3.0,及其在升級過程中遇到的問題;如何針對Hadoop進行二次開發,並參與社區,向社區貢獻代碼;一個大數據平臺應具備哪些必備組件等。