<內容介紹>
現在,越來越多的人開始接觸並考慮引入大數據技術來促進公司產品的銷售以獲得更多利潤,而機器學習已經成為除統計以外一種新的分析方法,採用學習演算法既能提高數據模型的預測精準度,又確保了對商務活動及其發展過程的預測能夠擺脫人腦計算能力的局限,使面向大數據的分析處理依托電腦的大規模計算能力得以完成。
《機器學習與R語言實戰/數據分析與決策技術叢書》由資深數據科學家丘祐瑋親筆撰寫,借助當前機器學習和數據分析領域最常用的工具R語言,深入淺出地介紹了採用R語言進行數據分析及構建預測模型的100多種實用方法,包括分類、回歸、聚類、關聯分析等常用機器學習演算法的實現,每一個演算法都通過具體案例詳細說明構建模型、實現模型以及評價模型的過程。而且書中還系統講解了相關的R語言基礎知識,包括環境準備以及數據轉換、分析和結果可視化的方法。此外,還詳細展示了使用RHadoop處理和分析海量數據的過程。
本書融合了作者在實踐機器學習演算法來完成數據分析方面的諸多心得,並且書中所有源代碼和實驗數據在配套的網站上都可以免費下載,相信閱讀完本書並親自動手完成書中所有演算法案例後,你將對機器學習和R語言都有更深入的瞭解,設計學習演算法來發現隱藏在數據中有價值的模式也不再是遙不可及的目標。
<章節目錄>
譯者序
前言
作者簡介
審校者簡介
第1章 基於R實踐機器學習
1.1 簡介
1.2 下載和安裝R
1.3 下載和安裝RStudio
1.4 包的安裝和加載
1.5 數據讀寫
1.6 使用R實現數據操作
1.7 應用簡單統計
1.8 數據可視化
1.9 獲取用於機器學習的數據集
第2章 挖掘RMS Titanic數據集
2.1 簡介
2.2 從CSV文件中讀取Titanic數據集
2.3 根據數據類型進行轉換
2.4 檢測缺失值
2.5 插補缺失值
2.6 識別和可視化數據
2.7 基於決策樹預測獲救乘客
2.8 基於混淆矩陣驗證預測結果的準確性
2.9 使用ROC曲線評估性能
第3章 R和統計
3.1 簡介
3.2 理解R中的數據採樣
3.3 在R中控制概率分佈
3.4 在R中進行一元描述統計
3.5 在R中進行多元相關分析
3.6 進行多元線性回歸分析
3.7 執行二項分佈檢驗
3.8 執行t檢驗
3.9 執行Kolmogorov-Smirnov檢驗
3.10 理解Wilcoxon秩和檢驗及Wilcoxon符號秩檢驗
3.11 實施皮爾森卡方檢驗
3.12 進行單因素方差分析
3.13 進行雙因素方差分析
第4章 理解回歸分析
4.1 簡介
4.2 調用lm函數構建線性回歸模型
4.3 輸出線性模型的特徵信息
4.4 使用線性回歸模型預測未知值
4.5 生成模型的診斷圖
4.6 利用lm函數生成多項式回歸模型
4.7 調用rlm函數生成穩健線性回歸模型
4.8 在SLID數據集上研究線性回歸案例
4.9 基於高斯模型的廣義線性回歸
4.10 基於泊松模型的廣義線性回歸
4.11 基於二項模型的廣義線性回歸
4.12 利用廣義加性模型處理數據
4.13 可視化廣義加性模型
4.14 診斷廣義加性模型
第5章 分類I——樹、延遲和概率
5.1 簡介
5.2 準備訓練和測試數據集
5.3 使用遞歸分割樹建立分類模型
5.4 遞歸分割樹可視化
5.5 評測遞歸分割樹的預測能力
5.6 遞歸分割樹剪枝
5.7 使用條件推理樹建立分類模型
5.8 條件推理樹可視化
5.9 評測條件推理樹的預測能力
5.10 使用k近鄰分類演算法
5.11 使用邏輯回歸分類演算法
5.12 使用樸素貝葉斯分類演算法
第6章 分類II—神經網絡和SVM
6.1 簡介
6.2 使用支持向量機完成數據分類
6.3 選擇支持向量機的懲罰因子
6.4 實現SVM模型的可視化
6.5 基於支持向量機訓練模型實現類預測
6.6 調整支持向量機
6.7 利用neuralnet包訓練神經網絡模型
6.8 可視化由neuralnet包得到的神經網絡模型
6.9 基於neuralnet包得到的模型實現類標號預測
6.10 利用nnet包訓練神經網絡模型
6.11 基於nnet包得到的模型實現類標