<內容簡介>
本書以機器學習與計算統計為主題背景,專門講述如何挖掘和分析Web上的數據和資源,如何分析用戶體驗、市場營銷、個人品味等諸多信息,並得出有用的結論,通過覆雜的算法來從Web網站獲取、收集並分析用戶的數據和反饋信息,以便創造新的用戶價值和商業價值。全書內容翔實,包括協作過濾技術(實現關聯產品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜索引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息並進行分析統計得出結論的優化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智能應用等。
本書是Web開發者、架構師、應用工程師等的絕佳選擇。
<章節目錄>
前言
第1章集體智慧導言
什麽是集體智慧
什麽是機器學習
機器學習的局限
真實生活中的例子
學習型算法的其他用途
第2章提供推薦
協作型過濾
搜集偏好
尋找相近的用戶
推薦物品
匹配商品
構建一個基於del.icio.us的鏈接推薦系統
基於物品的過濾
使用MovieLens數據集
基於用戶進行過濾還是基於物品進行過濾
練習
笫3章發現群組
監督學習和無監督學習
單詞向量
分級聚類
繪制樹狀圖
列聚類
K—均值聚類
針對偏好的聚類
以二維形式展現數據
有關聚類的其他事宜
練習
第4章搜索與排名
搜索引擎的組成
一個簡單的爬蟲程序
建立索引
查詢
基於內容的排名
利用外部回指鏈接
從點擊行為中學習
練習
第5章優化
組團旅遊
描述題解
成本函數
隨機搜索
爬山法
模擬退火算法
遺傳算法
真實的航班搜索
涉及偏好的優化
網絡可視化
其他可能的應用場合
練習
第6章文檔過濾
過濾垃圾信息
文檔和單詞
對分類器進行訓練
計算概率
樸素分類器
費舍爾方法
將經過訓練的分類器持久化
過濾博客訂閱源
對特徵檢測的改進
使用Akismet
替代方法
練習
第7章決策樹建模
預測註冊用戶
引入決策樹
對樹進行訓練
選擇最合適的拆分方案
以遞歸方式構造樹
決策樹的顯示
對新的觀測數據進行分類
決策樹的剪枝
處理缺失數據
處理數值型結果
對住房價格進行建模
對“熱度”評價進行建模
什麽時候使用決策樹
練習
第8章構建價格模型
構造一個樣本數據集
k—最近鄰算法
為近鄰分配權重
交叉驗證
不同類型的變量
對縮放結果進行優化 <