<內容介紹>
經典統計理論和機器學習方法為數據挖掘提供了必要的分析技術。本書系統地介紹統計分析和機器學習領域中最為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結合大量R語言實例演示了這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基於統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹了參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、線性回歸(包括嶺回歸和Lasso方法)、邏輯回歸、支持向量機、聚類分析(包括K均值算法和EM算法)和人工神經網絡等內容。同時,統計理論的介紹也為深化讀者對於後續機器學習部分的理解提供了很大助益。知識結構和閱讀進度的安排上既兼顧了循序漸進的學習規律,亦統籌考慮了夯實基礎的必要性。本書內容與實際應用結合緊密,又力求突出深入淺出、系統翔實之特色,對算法原理的解釋更是細緻入微。經典統計理論和機器學習方法為數據挖掘提供了必要的分析技術。本書系統地介紹統計分析和機器學習領域中最為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結合大量R語言實例演示了這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基於統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹了參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、線性回歸(包括嶺回歸和Lasso方法)、邏輯回歸、支持向量機、聚類分析(包括K均值算法和EM算法)和人工神經網絡等內容。同時,統計理論的介紹也為深化讀者對於後續機器學習部分的理解提供了很大助益。知識結構和閱讀進度的安排上既兼顧了循序漸進的學習規律,亦統籌考慮了夯實基礎的必要性。本書內容與實際應用結合緊密,又力求突出深入淺出、系統翔實之特色,對算法原理的解釋更是細緻入微。
<目錄>
第1章初識R語言1
1.1R語言簡介1
1.2安裝與運行3
1.3開始使用R5
1.4包的使用7
1.5使用幫助8
第2章探索R數據10
2.1向量的創建10
2.2向量的運算13
2.3向量的篩選15
2.4矩陣的創建17
2.5矩陣的使用20
2.5.1矩陣的代數運算20
2.5.2修改矩陣的行列22
2.5.3對行列調用函數23
2.6矩陣的篩選25
第3章編寫R程序28
3.1流程的控制28
3.1.1條件選擇結構的概念28
3.1.2條件選擇結構的語法29
3.1.3循環結構的基本概念30
3.1.4循環結構的基本語法31
3.2算術與邏輯33
3.3使用函數34
3.3 .1函數式語言34
3.3.2默認參數值35
3.3.3自定義函數36
3.3.4遞歸的實現38
3.4編寫代碼40
第4章概率統計基礎42
4.1概率論的基本概念42
4.2隨機變量數字特徵45
4.2.1期望45
4.2.2方差46
4.3基本概率分佈模型48
4.3.1離散概率分佈48
4.3.2連續概率分佈52
4.3.3使用內嵌分佈55
4.4大數定理及其意義59
4.5中央極限定理62
4.6隨機採樣分佈65
第5章實用統計圖形71
5.1餅狀圖71
5.2直方圖74
5.3核密圖78
5.4箱線圖81
5.4.1箱線圖與分位數81
5.4.2使用並列箱線圖84
5.5條形圖87
5.5.1基本條形圖及調整87
5.5.2堆砌與分組條形圖88
5.6分位數與QQ圖91
第6章數據輸入/輸出99
6.1數據的加載99
6.1.1基本的數據導入方法99
6.1.2處理其他軟件的格式103
6.1.3讀取來自網頁的數據104
6.1.4從數據庫中讀取數據106
6.2數據的保存108
6.3數據預處理109
6.3. 1常用數學函數110
6.3.2修改數據標籤113
6.3.3缺失值的處理114
第7章高級數據結構118
7.1列表118
7.1.1列表的創建118
7.1.2列表元素的訪問120
7.1.3增刪列表元素121
7.1.4拼接列表123
7.1.5列表轉化為向量123
7.1.6列表上的運算124
7.1.7列表的遞歸125
7.2數據框126
7.2.1數據框的創建126
7.2.2數據框元素的訪問128
7.2.3提取子數據框129
7.2.4數據框行列的添加130
7.2.5數據框的合併132
7.2.6數據框的其他操作134
7.3因子135
7.3.1因子的創建136