內容簡介
特徵工程是機器學習生產線中關鍵的步驟,不過這個領域還很少被單獨檢視過。在這本實用的書中,您會學到將特徵──原始資料的數值表達法──淬取與轉換為機器學習模型格式的技術。每一章都使用單一的資料問題來導引您,例如如何表達文字或影像資料。綜合在一起後,這些範例就描繪了特徵工程的主要原理。不是只教導這些原理,作者Alice Zheng和Amanda Casari也在整本書中使用習題來聚焦在實際應用上。最後一章會藉由在一個真實的結構化資料集上應用數種特徵工程技術來總結全書所學。程式碼範例則使用了Python的套件,包括numpy、Pandas、scikit-learn、以及Matplotlib。
您會學到:
‧數值資料的特徵工程:過濾、分箱、縮放、對數轉換及次方轉換
‧自然文本技術:詞袋、n元語法及片語偵測
‧以基於頻率之過濾與特徵縮放來消除不具資訊性的特徵
‧類別變數的編碼技術,包括特徵雜湊和分箱計數
‧使用主要成份分析進行基於模型的特徵工程
‧模型堆疊和使用k-means作為特徵淬取技術的概念
‧使用手動和深度學習技術之影像特徵淬取