內容簡介
本書作者精心彙整大數據分析工作所需的理論知識、系統開發,程式撰寫與建立模型之實務經驗,以資料庫實作為主軸,導引出大數據之應用和未來方向;由資料分析、資料倉儲到資料探勘,皆有周詳的說明與釋例,讓讀者一目了然,在觀念結構的建立上能更有效率的掌握,並舉列案例讓讀者透過案例分析,而能對資料庫的概念有更深一層的體會。
書中並完整介紹一些常用和知名套件如何撰寫、使用以及對跑出的結果如何進行解讀,例如:如何利用wordcloud套件繪製文字雲、Arules 套件 apriori 進行關聯規則分析、stats套件 kmeans 進行集群分析、C50 套件 C5.0 進行決策樹分析、stats 套件 glm 和RevoScaleR 套件 rxLogit進行羅吉斯迴歸分析等,相信對於有志成為資料科學家的初學者而言,本書絕對是一本絕佳的入門書籍。
※本書架構:
1. 第一、二、三、五章:主要介紹關聯式資料庫中進階技巧,以檢視表為開端,接續單元介紹索引技術、交易管理和可程式性物件,讓讀者建立在處理大量結構化資料時能更有效率的觀念與基礎。
2. 第四章:介紹 ADO.NET 資料庫程式設計,讓讀者從無到有建置一個小型資訊系統專案,建立對於資訊系統開發之認識,以及提升程式撰寫的能力。
3. 第六章:介紹資料倉儲與資料探勘,對於監督式學習或非監督式學習相關知識有一定程度的了解。
4. 第七章:介紹 SQL Server 2016 版才有的新功能,也是微軟致力於大數據分析的解決方案,主要提供資料科學家能夠透過原先所熟悉的 R 語言,不論是在交談式介面中透過SQL Server R Services直接撰寫 R 腳本指令進行資料分析,或是在 Visual Studio.NET 中透過R Tools for Visual Studio或 Microsoft R Client 的安裝,在原有 Visual Studio開發環境撰寫 R 指令從事各種機器學習,進行關聯、分類、集群和預測的工作。
書附光碟內容
1.Microsoft SQL Server 2016 範例資料庫
2.SQLServer2016
本書特色
1. 以資料庫的實作為主軸,詳述大數據的應用和未來方向。
2. 詳盡說明資料分析、倉儲與探勘等課題。
3. 舉列實際案例且循序引導,進而培養對資料庫的概念。
4. 常用套件、知名套件之介紹、撰寫、解讀說明與範例。
5. 對有志成為資料科學家的初學者而言,本書絕對是一本絕佳的入門書籍。
作者簡介
目錄
Chapter 0 大數據時代導讀
Chapter 1 視界
1.1 視界的優點
1.2 視界的缺點
1.3 視界的種類
1.4 使用「Management Studio」建立檢視表
1.4.1 建立行列子集視界
1.4.2 建立聯結視界
1.4.3 建立統計摘要視界
1.5 使用「Management Studio」修改檢視表
1.5.1 使用檢視規則更新
1.5.2 使用繫結至結構描述
1.6 使用「Management Studio」刪除檢視表
1.7 使用「T-SQL 指令」建立檢視表
1.7.1 建立行列子集視界
1.7.2 建立聯結視界
1.7.3 建立統計摘要視界
1.8 使用「T-SQL 指令」修改檢視表
1.8.1 使用檢視規則更新:WITH CHECK OPTION
1.8.2 使用繫結至結構描述:WITH SCHEMABINDING
1.8.3 將檢視表加密:WITH ENCRYPTION
1.9 使用「T-SQL 指令」編輯檢視表的資料
1.9.1 在檢視表中新增一筆資料
1.9.2 修改檢視表中的資料
1.9.3 刪除檢視表中的資料
1.10 使用「T-SQL 指令」刪除檢視表
1.11 習題
Chapter 2 索引
2.1 主索引
2.2 叢集索引
2.3 次索引
2.4 多層索引
2.5 密集索引和稀疏索引
2.6 使用「Management Studio」建立索引
2.7 使用「Management Studio」修改索引
2.7.1 是否忽略重複的索引鍵
2.7.2 是否設定填滿因數
2.8 使用「Management Studio」刪除索引
2.9 使用「T-SQL 指令」建立索引
2.10 使用「T-SQL 指令」修改索引
2.10.1 是否忽略重複的索引鍵:IGNORE_DUP_KEY
2.10.2 是否設定填滿因數:FILLFACTOR
2.11 使用「T-SQL 指令」刪除索引
2.12 習題
Chapter 3 交易管理和並行控制
3.1 交易管理
3.1.1 交易的 ACID 四大特性
3.1.2 交易狀態
3.2 為何需要並行控制
3.3 排程的循序性
3.3.1 如何測試非序列排程的正確性
3.3.2 優先次序圖
3.4 並行控制的方法
3.4.1 鎖定法
3.4.1.1 二位元鎖定
3.4.1.2 共享 / 互斥鎖定
...