大數據分析實務:RapidMiner之應用
配送方式
-
台灣
- 國內宅配:本島、離島
-
到店取貨:不限金額免運費
-
海外
- 國際快遞:全球
-
港澳店取:
內容簡介
本書使用免費下載的「RapidMiner」軟體,該軟體使用圖形化界面,不需編寫程式、操作簡易、功能強大且應用廣泛,適合初學與進階資料分析人士使用。
本書從基礎的資料取得、事前處理到模型的建置、評分、驗證與實例分析等,以實作方式,循序漸進的介紹大數據分析的操作步驟與流程。
全書提供30個案例,內容包含金融、製造、銷售、管理、醫療、休閒、氣象與情感分析文字探勘等諸多領域的應用實例,除了對現有結構與非結構式資料進行分析外,同時利用訓練模型預測未來,提升數據分析的實用價值。
本書除提供數據資料檔Data File外,亦附有各章節之程式/流程檔供讀者參考。
本書從基礎的資料取得、事前處理到模型的建置、評分、驗證與實例分析等,以實作方式,循序漸進的介紹大數據分析的操作步驟與流程。
全書提供30個案例,內容包含金融、製造、銷售、管理、醫療、休閒、氣象與情感分析文字探勘等諸多領域的應用實例,除了對現有結構與非結構式資料進行分析外,同時利用訓練模型預測未來,提升數據分析的實用價值。
本書除提供數據資料檔Data File外,亦附有各章節之程式/流程檔供讀者參考。
目錄
Chapter 00 RapidMiner 軟體下載、介面說明與注意事項
Chapter 01 基礎篇
本章介紹使用RapidMiner平台的基礎知識,涵蓋內容從如何取得與過濾資料到改變資料的類型與角色以及對各類型檔案的讀取與儲存等。本章同時涵蓋如何建置一個基本模型,以及認識變數的結合、分類、新增與選擇等功能。
Chapter 02 資料處理
本章介紹資料的前置處理,內容包含遺漏值的處理、資料的常態化與刪除離群值以及變數的樞紐轉換與重新命名等;同時涵蓋使用巨集、迴圈與分支等運算式進行抽樣以及多個資料檔案的讀入、儲存、合併、運算與結合等。在時間序列資料的前置處裡部分,會介紹如何將日資料轉換為月平均以及季平均資料的方式。
Chapter 03 模型之建置、評分與驗證
本章介紹分類模型之建置、預測、績效評估以及驗證方式,內容包含分割資料與交叉驗證的差異。使用之演算法包含決策樹、簡單貝式法、規則歸納法以及羅吉斯回歸等。在比較不同演算法績效表現方面,除了常用之準確率、精確率與召回率等指標外,更介紹以視覺化模型(ROC曲線)進行分析。
Chapter 04 多元實例練習
本章涵蓋實例練習的第一部分,主題包含國人赴國外旅遊人數分析、台灣50的股票價格分群、參數最佳化及對交易對手信用違約預測、調整不平衡資料及對客戶流失預測、建置增益圖找出最可能流失的客戶群集中行銷、依據基地台號碼與座標位置找出距離最近的基地台、使用回歸模型預測二手車售價以及依據羅吉斯回歸模型最佳變數預測新生嬰兒體重是否過輕。
Chapter 05 進階實例練習
本章涵蓋實作練習的第二部分,主題包含根據民眾就醫資料偵測醫療詐欺行為、使用關聯性法則判斷那些商品經常同時購買、針對連續未達測試績效的預測模型郵寄警訊至相關人員、依據機器各部位感應器記錄找出發生故障的主要來源、使用K-NN模型預測機器是否將發生故障以預先安排維修工作、檢視S&P 500的移動平均以及線性與非線性趨勢、使用視窗與滑動視窗驗證根據公司財報資料預測股價、處裡視窗資料、使用交叉驗證與時間序列滑動視窗驗證以及單變量ARIMA模型進行溫度預測、使用單變量Holt-Winters模型預測貿易出口值以及計算並根據顧客之RFM值進行顧客分群與執行問卷回覆分析。
Chapter 06 中英文文字探勘
本章介紹如何執行中英文文字探勘並據以分析,英文文字探勘的主題包含利用書籍名稱預測圖書主題、尋找程式設計師徵才廣告所列之主要條件、分析顧客對藍芽耳機的文字評價以及檢視正負評價中的主要詞彙。中文探勘結合了Python的Jieba套件進行中文斷字,涵蓋主題包含尋找2012年以及2020年總統就職演說使用的主要詞彙、消費者情緒分析以及對網路新聞的文字探勘。
Chapter 01 基礎篇
本章介紹使用RapidMiner平台的基礎知識,涵蓋內容從如何取得與過濾資料到改變資料的類型與角色以及對各類型檔案的讀取與儲存等。本章同時涵蓋如何建置一個基本模型,以及認識變數的結合、分類、新增與選擇等功能。
Chapter 02 資料處理
本章介紹資料的前置處理,內容包含遺漏值的處理、資料的常態化與刪除離群值以及變數的樞紐轉換與重新命名等;同時涵蓋使用巨集、迴圈與分支等運算式進行抽樣以及多個資料檔案的讀入、儲存、合併、運算與結合等。在時間序列資料的前置處裡部分,會介紹如何將日資料轉換為月平均以及季平均資料的方式。
Chapter 03 模型之建置、評分與驗證
本章介紹分類模型之建置、預測、績效評估以及驗證方式,內容包含分割資料與交叉驗證的差異。使用之演算法包含決策樹、簡單貝式法、規則歸納法以及羅吉斯回歸等。在比較不同演算法績效表現方面,除了常用之準確率、精確率與召回率等指標外,更介紹以視覺化模型(ROC曲線)進行分析。
Chapter 04 多元實例練習
本章涵蓋實例練習的第一部分,主題包含國人赴國外旅遊人數分析、台灣50的股票價格分群、參數最佳化及對交易對手信用違約預測、調整不平衡資料及對客戶流失預測、建置增益圖找出最可能流失的客戶群集中行銷、依據基地台號碼與座標位置找出距離最近的基地台、使用回歸模型預測二手車售價以及依據羅吉斯回歸模型最佳變數預測新生嬰兒體重是否過輕。
Chapter 05 進階實例練習
本章涵蓋實作練習的第二部分,主題包含根據民眾就醫資料偵測醫療詐欺行為、使用關聯性法則判斷那些商品經常同時購買、針對連續未達測試績效的預測模型郵寄警訊至相關人員、依據機器各部位感應器記錄找出發生故障的主要來源、使用K-NN模型預測機器是否將發生故障以預先安排維修工作、檢視S&P 500的移動平均以及線性與非線性趨勢、使用視窗與滑動視窗驗證根據公司財報資料預測股價、處裡視窗資料、使用交叉驗證與時間序列滑動視窗驗證以及單變量ARIMA模型進行溫度預測、使用單變量Holt-Winters模型預測貿易出口值以及計算並根據顧客之RFM值進行顧客分群與執行問卷回覆分析。
Chapter 06 中英文文字探勘
本章介紹如何執行中英文文字探勘並據以分析,英文文字探勘的主題包含利用書籍名稱預測圖書主題、尋找程式設計師徵才廣告所列之主要條件、分析顧客對藍芽耳機的文字評價以及檢視正負評價中的主要詞彙。中文探勘結合了Python的Jieba套件進行中文斷字,涵蓋主題包含尋找2012年以及2020年總統就職演說使用的主要詞彙、消費者情緒分析以及對網路新聞的文字探勘。
訂購/退換貨須知
退換貨須知:
**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**
-
依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
- 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
- 依消費者要求所為之客製化給付。(客製化商品)
- 報紙、期刊或雜誌。(含MOOK、外文雜誌)
- 經消費者拆封之影音商品或電腦軟體。
- 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
- 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
- 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
- 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
- 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
商品評價