本書作者精心彙整大數據分析工作所需的理論知識、系統開發,程式撰寫與建立模型之實務經驗,以資料庫實作為主軸,導引出大數據之應用和未來方向;由資料分析、資料倉儲到資料探勘,皆有周詳的說明與釋例,讓讀者一目了然,在觀念結構的建立上能更有效率的掌握,並舉列案例讓讀者透過案例分析,而能對資料庫的概念有更深一層的體會。
書中並完整介紹一些常用和知名套件如何撰寫、使用以及對跑出的結果如何進行解讀,例如:如何利用wordcloud套件繪製文字雲、Arules 套件 apriori 進行關聯規則分析、stats套件 kmeans 進行集群分析、C50 套件 C5.0 進行決策樹分析、stats 套件 glm 和RevoScaleR 套件 rxLogit進行羅吉斯迴歸分析等,相信對於有志成為資料科學家的初學者而言,本書絕對是一本絕佳的入門書籍。
※本書架構:
1. 第一、二、三、五章:主要介紹關聯式資料庫中進階技巧,以檢視表為開端,接續單元介紹索引技術、交易管理和可程式性物件,讓讀者建立在處理大量結構化資料時能更有效率的觀念與基礎。
2. 第四章:介紹 ADO.NET 資料庫程式設計,讓讀者從無到有建置一個小型資訊系統專案,建立對於資訊系統開發之認識,以及提升程式撰寫的能力。
3. 第六章:介紹資料倉儲與資料探勘,對於監督式學習或非監督式學習相關知識有一定程度的了解。
4. 第七章:介紹 SQL Server 2016 版才有的新功能,也是微軟致力於大數據分析的解決方案,主要提供資料科學家能夠透過原先所熟悉的 R 語言,不論是在交談式介面中透過SQL Server R Services直接撰寫 R 腳本指令進行資料分析,或是在 Visual Studio.NET 中透過R Tools for Visual Studio或 Microsoft R Client 的安裝,在原有 Visual Studio開發環境撰寫 R 指令從事各種機器學習,進行關聯、分類、集群和預測的工作。
書附光碟內容
1.Microsoft SQL Server 2016 範例資料庫
2.SQLServer2016
本書特色
1. 以資料庫的實作為主軸,詳述大數據的應用和未來方向。
2. 詳盡說明資料分析、倉儲與探勘等課題。
3. 舉列實際案例且循序引導,進而培養對資料庫的概念。
4. 常用套件、知名套件之介紹、撰寫、解讀說明與範例。
5. 對有志成為資料科學家的初學者而言,本書絕對是一本絕佳的入門書籍。