<內容簡介>
本書共分為14章,重點探討了數據預處理的方法,包括數據獲取、篩選、重構、建模、平滑以及降維,本書還介紹了分類和聚類等幾種主要的數據分析方法,zui後探討了網絡數據、時序數據、空間數據及社交媒體數據等一些特殊類型數據的分析處理。
<章節目錄>
譯者序
前言
第1章你好,數據!1
1.1導入一個大小合適的文本文件2
1.2文本文件編譯測試平臺5
1.3導入文本文件的子集6
1.4從數據庫中導入數據8
1.4.1搭建測試環境9
1.4.2 MySQL和MariaDB 11
1.4.3 PostgreSQL 15
1.4.4 Oracle數據庫17
1.4.5訪問ODBC數據庫22
1.4.6使用圖形化用戶面連接數據庫23
1.4.7其他數據庫後台24
1.5從其他統計系統導入數據25
1.6導入Excel電子表格26
1.7小結26
第2章從Web獲取數據28
2.1從Internet導入數據集29
2.2其他流行的在線數據格式32
2.3從HTML表中讀取數據37
2.4從其他在線來源獲取數據39
2.5使用R包與數據源API交互42
2.5 .1 Socrata的開源數據API 43
2.5.2金融API 44
2.5.3使用Quandl獲取時序數據45
2.5.4 Google文檔和統計數據46
2.5.5在線搜索的發展趨勢47
2.5.6天氣歷史數據48
2.5. 7其他在線數據源49
2.6小結49
第3章數據篩選和匯總50
3.1去掉多餘的數據50
3.1.1快速去掉多餘數據52
3.1.2快速去掉多餘數據的其他方法53
3.2聚集54
3.2.1使用基礎的R命令實現快速聚集55
3.2.2方便的輔助函數56
3.2.3高性能的輔助函數57
3.2.4使用data.table完成聚集59
3.3測試59
3.4匯總函數62
3.5小結64
第4章數據重構65
4.1矩陣轉置65
4.2基於字符串匹配實現數據篩選66
4.3數據重排序67
4.4 dplyr包和data.table包的比較70
4.5創建新變量70
4.5.1內存使用分析71
4.5.2同時創建多個變量72
4.5.3採用dplyr包生成新變量73
4.6數據集合併74
4.7靈活地實現數據整形76
4.7.1將寬表轉換為長表77
4.7.2將長表轉換為寬表78
4.7.3性能調整80
4.8 reshape包的演變80
4.9小結81
第5章建模82
5.1多元模型的由來83
5.2線性回歸及連續預測變量83
5.2.1模型解釋83
5.2.2多元預測85
5.3模型假定87
5.4回歸線的擬合效果90
5.5離散預測變量92
5.6小結95
第6章線性趨勢直線外的知識96
6.1工作流建模96
6.2邏輯回歸97
6.2.1數據思考100
6.2.2模型擬合的好處101
6.2.3模型比較102
6.3計數模型102
6.3.1泊松回歸103
6.3.2負二項回歸107
6.3.3多元非線性模型107
6.4小結115
第7章非結構化數據116
7.1導入語料庫116
7.2清洗語料庫118
7.3展示語料庫的高頻詞121
7.4深度清洗121
7.4.1詞幹提取122
7.4.2詞形還原124
7.5詞條關聯說明124
7.6其他一