Hadoop 是Apache 基金會的開放原始碼專案,為開發者提供了一個分散式系統的基礎架構,使用者可以在不了解分散式系統的底層細節的情況下開發分散式的應用,充分利用叢集的強 大功能,實現高速運算和儲存。Hadoop 專案中包括一個分散式的檔案系統HDFS 專案,一個分散式的並行程式設計框架MapReduce,以及包括Nutch 在內的諸多子專案。
第二版新增《Hadoop 2.3.0 新增功能介紹》,如果您是專業技術人員,本書將帶領你快速地進入雲端運算的世界,全面掌握Hadoop 及其相關技術,能幫助你使用Hadoop 技術解決目前面臨的問題。如果你是大專院校資訊及相關專業的學生,本書為你在課堂之外了解最新的IT 技術開啟了一扇窗,幫助你拓寬視野,為迎接未來的挑戰做好知識準備,希望不同背景和職業的讀者都能從中獲益。
本書內容
前10 章主要介紹了Apache Hadoop 的common 核心、MapReduce 及檔案系統。從第11 章開始,詳細講解與Hadoop 相關的其他專案,分別為:Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa,以及Hadoop 的常用外掛程式。此外,附錄中還包含一個簡單的雲端運算線上檢測平台。
讀者可以先系統地學習前10 章,對Hadoop 的核心內容有一個很好的了解。在此基礎上,對後面的章節可進行選擇性的學習。因為在內容的編排上,各章的知識點是相對獨立的,各章之間是並行的關係。如果 時間允許,還是建議大家系統地學習全書的內容,這樣能夠對Hadoop 系統的機制有一個完整的了解,為今後深入地研究和實作Hadoop 及雲端運算技術打下堅實的基礎。
另外,希望大家能一邊閱讀,一邊動手實作本書中所列出的程式設計範例。例如,先搭建一個自己的雲端平台,如果條件受限,可以選擇虛擬分佈的方式。
本書適合讀者
•具一定分散式系統的基礎,對檔案系統的基本操作有一定了解者。
•有一定的Linux 作業系統的基礎者。
•有程式設計基礎和閱讀程式的能力,尤其能夠熟練使用Java 語言。
•對資料倉儲、系統監控、網路爬蟲等知識也能有一些了解者。