<內容簡介>
10餘位數據挖掘領域資深專家和科研人員,10餘年大數據挖掘咨詢與實施經驗結晶。從數據挖掘的應用出發,以電力、航空、醫療、因特網、生產製造以及公共服務等行業真實案例為主線,深入淺出介紹Python數據挖掘建模過程,實踐性極強。
張良均、王路、譚立雲、蘇劍林、雲偉標等著的《Python數據分析與挖掘實戰》共15章,分兩個部分:基礎篇、實戰篇。基礎篇介紹了數據挖掘的基本原理,實戰篇介紹了一個個真實案例,通過對案例深入淺出的剖析,使讀者在不知不覺中通過案例實踐獲得數據挖掘項目經驗,同時快速領悟看似難懂的數據挖掘理論。讀者在閱讀過程中,應充分利用隨書配套的案例建模數據,借助相關的數據挖掘建模工具,通過上機實驗,以快速理解相關知識與理論。
基礎篇(第1?5章),第1章的主要內容是數據挖掘概述;第2章對本書所用到的數據挖掘建模工具Python語言進行了簡明扼要的說明;第3章、第4章、第5章對數據挖掘的建模過程,包括數據探索、數據預處理及挖掘建模的常用演算法與原理進行了介紹。
實戰篇(第6?15章),重點對數據挖掘技術在電力、航空、醫療、因特網、生產製造以及公共服務等行業的應用進行了分析。在案例結構組織上,本書是按照先介紹案例背景與挖掘目標,再闡述分析方法與過程,最後完成模型構建的順序進行的,在建模過程的關鍵環節,穿插程序實現代碼。最後通過上機實踐,加深讀者對數據挖掘技術在案例應用中的理解。
<章節目錄>
前言
基礎篇
第1章 數據挖掘基礎
1.1 某知名連鎖餐飲企業的困惑
1.2 從餐飲服務到數據挖掘
1.3 數據挖掘的基本任務
1.4 數據挖掘建模過程
1.4.1 定義挖掘目標
1.4.2 數據取樣
1.4.3 數據探索
1.4.4 數據預處理
1.4.5 挖掘建模
1.4.6 模型評價
1.5 常用的數據挖掘建模工具
1.6 小結
第2章 Python數據分析簡介
2.1 搭建Python開發平臺
2.1.1 所要考慮的問題
2.1.2 基礎平臺的搭建
2.2 Python使用入門
2.2.1 運行方式
2.2.2 基本命令
2.2.3 數據結構
2.2.4 庫的導入與添加
2.3 Python數據分析工具
2.3.1 Numpy
2.3.2 Scipy
2.3.3 Matplotlib
2.3.4 Pandas
2.3.5 StatsModels
2.3.6 Scikit-Learn
2.3.7 Keras
2.3.8 Gensim
2.4 配套資源使用設置
2.5 小結
第3章 數據探索
3.1 數據質量分析
3.1.1 缺失值分析
3.1.2 異常值分析
3.1.3 一致性分析
3.2 數據特徵分析
3.2.1 分佈分析
3.2.2 對比分析
3.2.3 統計量分析
3.2.4 周期性分析
3.2.5 貢獻度分析
3.2.6 相關性分析
3.3 Python主要數據探索函數
3.3.1 基本統計特徵函數
3.3.2 拓展統計特徵函數
3.3.3 統計作圖函數
3.4 小結
第4章 數據預處理
4.1 數據清洗
4.1.1 缺失值處理
4.1.2 異常值處理
4.2 數據集成
4.2.1 實體識別
4.2.2 冗餘屬性識別
4.3 數據變換
4.3.1 簡單函數變換
4.3.2 規範化
4.3.3 連續屬性離散化
4.3.4 屬性構造
4.3.5 小波變換
4.4 數據規約
4.4.1 屬性規約
4.4.2 數值規約
4.5 Python主要數據預處理函數
4.6 小結
第5章 挖掘建模
5.1 分類與預測
5.1.1 實現過程
5.1.2 常用的分類與預測演算法
5.1.3 回歸分析