內容簡介
Kaggle 是目前最大的資料科學競賽平台,這裡匯集世界各地超過 10 萬名資料科學家,解決各大企業公開於平台上面的資料及問題。Kaggle 曾經舉辦過總獎金一百萬美金的競賽,尋求各路好手解決癌症影像辨識的問題;也曾經有參賽者因為解決了一家壽險公司在 Kaggle 上發布的問題,因此順利進入該公司工作。因此,Kaggle 無疑是展現高超技術力,同時也是尋求優渥獎金、薪資、更好職位的途徑。
對於人工智慧的工程師、學生來說,Kaggle 平台提供了大量免費的資源:真實世界的資料集、各路好手的討論分享、以及累積實際操作的經驗等等。這些資源在一般課堂上幾乎很難取得,卻也是這領域最需要的知識與技能。
本書作者為四位 Kaggle 資料科學競賽專家,他們不僅透過實務上的角度解析各種特徵工程技術,超越一般教科書的視野;更重要的是提供各種技術、流程使用心得,讓讀者可以直接跳過嘗試、摸索的階段。試想下列的這些問題,不就是實務上經常會碰到的難處!而作者將會在書中闡述他們如何看待、解決這些事情:
● 如何最佳化模型的閾值來獲得最高的評價分數?
● 如何將資料經過編碼、降維等等轉換,以彰顯資料的特性?
● 如何依據問題的型態選擇模型,且依照模型的特性來提取適當的特徵?
● 如何正確進行時序資料的驗證以避免過度配適或資料外洩?
● 如何調整梯度提升決策樹、類神經網路的參數?
● 如何將自己所學的各種技術,進行有效的模型集成?
我們也在書中適時加上小編補充,讓讀者可以完整吸收四位專家的思想精髓,希望讀者閱讀本書之後,不僅可以在 Kaggle 競賽中締造絕佳成績,也相信讀者可以解決工作、研究中複雜且混亂的資料集。
讓我們一同走上資料科學的巔峰吧!
本書特色
● 國立成功大學資訊工程學系特聘教授 陳培殷博士 推薦
● 本書由施威銘研究室監修,內容易讀易懂,並加入大量「編註」與「小編補充」以幫助理解及補充必要知識。
● 集結 4 位 Kaggle 高手累積共 37 面獎牌的實戰經驗
● 整理當前實務上各種特徵工程的困難問題以及解決的方法
● 分享各種技術使用時機與實踐結果的寶貴心得
● 揭露 Kaggle 競賽高人一等的制勝精華
● 提供書中 Python 範例程式下載
作者簡介
自序/導讀
3.13.4 KDD Cup 2015
3.13.5 數據分析競賽中的其他技巧的案例
第 4 章 建立模型
4.1 什麼是模型?
4.1.1 什麼是模型?
4.1.2 建立模型的步驟
4.1.3 模型相關用語及要點
4.2 常用於數據分析競賽的模型
4.3 梯度提升決策樹 (Gradient Boosting Decision Tree, GBDT)
4.3.1 GBDT 概述
4.3.2 GBDT 的特性
4.3.3 主要的 GBDT 套件
4.3.4 使用 xgboost
4.3.5 使用 xgboost 的要點
4.3.6 lightgbm
4.3.7 catboost
4.4 類神經網路
4.4.1 類神經網路概要
4.4.2 類神經網路的特色
4.4.3 類神經網路的主要套件
4.4.4 建立類神經網路模型
4.4.5 Keras 使用方法及套件
4.4.6 類神經網路的參考架構
4.4.7 解法案例 - 類神經網路的新發展
4.5 線性模型
4.5.1 線性模型概要
4.5.2 線性模型的特徵
4.5.3 線性模型的主要套件
4.5.4 建立線性模型
4.5.5 使用線性模型的方法和要點
4.6 其他模型
4.6.1 K - 近鄰演算法 (K-Nearest Neighbor algorithm, KNN)
4.6.2 隨機森林 (Random Forest, RF)
4.6.3 Extremely Randomized Trees (ERT)
4.6.4 Regularized Greedy Forest (RGF)
4.6.5 Field-aware Factorization Machines (FFM)
4.7 模型的其他要點與技巧
4.7.1 資料含有缺失值
4.7.2 特徵數量太多
4.7.3 表格資料中的標籤沒有 1 對 1 時
4.7.4 pseudo labeling
第 5 章 模型評價
5.1 什麼是模型評價?
5.2 一般資料的驗證手法
5.2.1 hold-out 法
5.2.2 交叉驗證
5.2.3 stratified k-fold
5.2.4 group k-fold
5.2.5 leave-one-out
5.3 時間序列資料的驗證手法
5.3.1 時間序列資料的 hold-out 法
5.3.2 時間序列資料的交叉驗證 (依時序進行驗證)
5.3.3 時間序列資料的交叉驗證 (不管時序直接劃分資料的方法)
5.3.4 驗證時間序列資料的注意事項
5.3.5 Kaggle 的「Recruit Restaurant Visitor Forecasting」
5.3.6 Kaggle 的「Santander Product...