對於入門和學習大數據技術的讀者來說,大數據技術的生態圈和知識體系過於龐大,可能還沒有開始學習就已經陷入眾多的陌生名詞和泛泛的概念中。本書的切入點明確而清晰,從Hadoop 生態系統的明星 Cloudera 入手,逐步引出各類大數據基礎和核心應用框架。
本書分為18章,系統介紹Hadoop 生態系統大數據相關的知識,包括大數據概述、Cloudera Hadoop平台的安裝部署、HDFS分佈式文件系統、MapReduce計算框架、資源管理調度框架YARN 、Hive數據倉庫、數據遷移工具Sqoop、分佈式數據庫HBase、ZooKeeper分佈式協調服務、準實時分析系統Impala、日誌採集工具Flume、分佈式消息系統Kafka、ETL工具Kettle、Spark計算框架等內容,最後給出兩個綜合實操案例,以鞏固前面所學的知識點。
本書既適合Hadoop初學者、大數據技術工程師和大數據技術愛好者自學使用,亦可作為高等院校和培訓機構大數據相關課程的培訓用書