內容簡介
大數據時代的資料庫處理:Spark SQL親自動手做(熱銷版)
內容簡介
全書分為4篇,共9章,第一篇講解Spark SQL 發展歷史和開發環境搭建。第二篇講解Spark SQL 實例,幫助讀者掌握Spark SQL的入門操作,瞭解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解基於WiFi探針的商業大數據分析專案,實例中包含資料獲取、預處理、存儲、利用Spark SQL 挖掘資料,一步步帶領讀者學習Spark SQL強大的資料採擷功能。第四篇講解Spark SQL 最佳化的知識。
適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。
本書特色
Spark SQL是 Spark大數據框架的一部分,支援使用標準SQL查詢和HiveQL來讀寫資料,可用於結構化資料處理,並可以執行類似SQL的Spark資料查詢,有助於開發人員更快地建置和執行Spark程式。
內容簡介
全書分為4篇,共9章,第一篇講解Spark SQL 發展歷史和開發環境搭建。第二篇講解Spark SQL 實例,幫助讀者掌握Spark SQL的入門操作,瞭解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解基於WiFi探針的商業大數據分析專案,實例中包含資料獲取、預處理、存儲、利用Spark SQL 挖掘資料,一步步帶領讀者學習Spark SQL強大的資料採擷功能。第四篇講解Spark SQL 最佳化的知識。
適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。
本書特色
Spark SQL是 Spark大數據框架的一部分,支援使用標準SQL查詢和HiveQL來讀寫資料,可用於結構化資料處理,並可以執行類似SQL的Spark資料查詢,有助於開發人員更快地建置和執行Spark程式。
作者簡介
作者簡介
紀涵
資料採擷、雲計算愛好者,曾負責多個中小型網站的開發維護工作,參與開發設計多款面向校園服務的App,與多個基於Hadoop、Spark平台的大數據應用,現主要研究方向為機器學習、資料採擷。
紀涵
資料採擷、雲計算愛好者,曾負責多個中小型網站的開發維護工作,參與開發設計多款面向校園服務的App,與多個基於Hadoop、Spark平台的大數據應用,現主要研究方向為機器學習、資料採擷。
內容目錄
目錄
第一部分 入門篇
1初識Spark SQL
1.1 Spark SQL的前世今生
1.2 Spark SQL能做什麼
2 Spark安裝、程式設計環境架設以及包裝傳送
2.1 Spark的簡易安裝
2.2 準備撰寫Spark應用程式的IDEA環境
2.3 將撰寫好的Spark應用程式套件裝成jar傳送到Spark上
第二部分 基礎篇
3 Spark上的RDD程式設計
3.1 RDD基礎
3.2 RDD簡單實例—wordcount
3.3 建立RDD
3.4 RDD操作
3.5 向Spark傳遞函數
3.6 常見的轉化操作和行動操作
3.7 深入了解RDD
3.8 RDD 快取、持久化
3.9 RDD checkpoint容錯機制
4 Spark SQL程式設計入門
4.1 Spark SQL概述
4.2 Spark SQL程式設計入門範例
5 Spark SQL的DataFrame操作大全
5.1 由JSON檔案產生所需的DataFrame物件
5.2 DataFrame上的行動操作
5.3 DataFrame上的轉化操作
6 Spark SQL支援的多種資料來源
6.1 概述
6.2 典型結構化資料來源
第三部分 實作篇
7 Spark SQL 工程實戰之以WiFi探針為基礎的商業大數據分析技術
7.1 功能需求
7.2 系統架構
7.3 功能設計
7.4 資料庫結構
7.5 本章小結
8 第一個Spark SQL應用程式
8.1 完全分散式環境架設
8.2 資料清洗
8.3 資料處理流程
8.4 Spark程式遠端偵錯
8.5 Spark的Web介面
8.6 本章小結
第四部分 最佳化篇
9 讓Spark程式再快一點
9.1 Spark執行流程
9.2 Spark記憶體簡介
9.3 Spark的一些概念
9.4 Spark程式設計四大守則
9.5 Spark最佳化七式
9.6 解決資料傾斜問題
9.7 Spark 執行引擎Tungsten 簡介
9.8 Spark SQL解析引擎Catalyst 簡介
9.9 本章小結
第一部分 入門篇
1初識Spark SQL
1.1 Spark SQL的前世今生
1.2 Spark SQL能做什麼
2 Spark安裝、程式設計環境架設以及包裝傳送
2.1 Spark的簡易安裝
2.2 準備撰寫Spark應用程式的IDEA環境
2.3 將撰寫好的Spark應用程式套件裝成jar傳送到Spark上
第二部分 基礎篇
3 Spark上的RDD程式設計
3.1 RDD基礎
3.2 RDD簡單實例—wordcount
3.3 建立RDD
3.4 RDD操作
3.5 向Spark傳遞函數
3.6 常見的轉化操作和行動操作
3.7 深入了解RDD
3.8 RDD 快取、持久化
3.9 RDD checkpoint容錯機制
4 Spark SQL程式設計入門
4.1 Spark SQL概述
4.2 Spark SQL程式設計入門範例
5 Spark SQL的DataFrame操作大全
5.1 由JSON檔案產生所需的DataFrame物件
5.2 DataFrame上的行動操作
5.3 DataFrame上的轉化操作
6 Spark SQL支援的多種資料來源
6.1 概述
6.2 典型結構化資料來源
第三部分 實作篇
7 Spark SQL 工程實戰之以WiFi探針為基礎的商業大數據分析技術
7.1 功能需求
7.2 系統架構
7.3 功能設計
7.4 資料庫結構
7.5 本章小結
8 第一個Spark SQL應用程式
8.1 完全分散式環境架設
8.2 資料清洗
8.3 資料處理流程
8.4 Spark程式遠端偵錯
8.5 Spark的Web介面
8.6 本章小結
第四部分 最佳化篇
9 讓Spark程式再快一點
9.1 Spark執行流程
9.2 Spark記憶體簡介
9.3 Spark的一些概念
9.4 Spark程式設計四大守則
9.5 Spark最佳化七式
9.6 解決資料傾斜問題
9.7 Spark 執行引擎Tungsten 簡介
9.8 Spark SQL解析引擎Catalyst 簡介
9.9 本章小結
ISBN: 9789863797814