<內容目錄>
西蒙·蒙策爾特、克裡斯蒂安·魯巴、彼得·邁博納、多米尼加聯邦·尼胡斯著的《基於R語言的自動數據收集》由資深社會科學家撰寫,從社會科學研究角度系統且深入闡釋利用R語言進行自動化數據抓取和分析的工具、方法、原則和最佳實踐。作者深入剖析自動化數據抓取和分析各個層面的問題,從網絡和數據技術到網絡抓取和文本挖掘的實用工具箱,重點闡釋利用R語言進行自動化數據抓取和分析,能為社會科學研究者與開發人員設計、開發、維護和優化自動化數據抓取和分析提供有效指導。
本書共17章。第1章是概述,闡述數據挖掘的意義與實際應用。第2?8章介紹網絡和數據技術基礎知識。這一部分內容涉及因特網上通信、交換、保存和顯示信息的基礎技術(如HTTP、HTML、XML、JSON、AJAX、SQL等),並講解用於查詢網絡文檔和數據集的基本技術(XPath和正則表達式)。第9?11章介紹網絡抓取和文本挖掘的實用工具箱。這一部分由三個核心章節組成:第9章講解多種網絡抓取技術,涉及正則表達式的使用、XPath、各類API接口、其他數據類型以及開源社區相關的技術;第10章深入介紹用於統計性文本處理的技術;第11章給出關於用R管理數據的項目中常見問題的一些見解。第12?17章介紹實際案例分析,涉及美國參議院里的合作網絡、從半結構化文檔解析信息、利用Twitter預測2014年奧斯卡獎、繪製姓氏地理分佈圖、採集關於手機的數據、分析產品評論里的情緒等。這些案例分析針對日常的數據抓取和文本處理的工作流程、真實環境數據中的陷阱以及規避它們的方法等問題提供一些實用的見解。
<章節目錄>
譯者序
前言
第1章 概述
1.1 案例研究:瀕危世界遺產地
1.2 有關網絡數據質量的一些討論
1.3 傳播、提取和保存網絡數據的技術
1.3.1 在網絡上傳播內容的技術
1.3.2 從Web文檔中提取信息的技術
1.3.3 數據保存的技術
1.4 本書的結構
第一部分 網絡和數據技術入門
第2章 HTML
2.1 瀏覽器顯示及源代碼
2.2 語法規則
2.2.1 標籤、元素和屬性
2.2.2 樹形結構
2.2.3 註釋
2.2.4 保留字符和特殊字符
2.2.5 文檔類型定義
2.2.6 空格和換行
2.3 標籤和屬性
2.3.1 錨標籤
2.3.2 元數據標籤
2.3.3 外部引用標籤
2.3.4 強調標籤、和
2.3.5 段落標籤
2.3.6 標題標籤、