網站擷取:使用Python(二版) | 拾書所

網站擷取:使用Python(二版)

$ 458 元 原價 580
  在現代網路蒐集資料

  如果程式設計是魔術,那麼網站擷取當然是一種魔法。你可以撰寫簡單的自動化程式查詢網頁伺服器、請求資料、並解析所需的資訊。本書不只介紹網頁擷取,還包含擷取各種現代網站資料的詳盡指南。

  本書第一部份專注於網站擷取機制:使用Python從網頁伺服器取得資料、執行伺服器回應的基本處理工作、以及與網站的自動化互動。第二部分探索適用於不同擷取場景的各種工具與應用程式。

  ‧解析複雜HTML網頁
  ‧以Scrapy架構開發爬行程序
  ‧學習爬行資料的儲存方式
  ‧從文件讀取與提煉資料
  ‧清理格式不良的資料
  ‧以自然語言讀寫
  ‧透過表單與登入的爬行
  ‧JavaScript與API爬行
  ‧使用影像文字識別軟體
  ‧避開爬行陷阱與機器人阻擋程序
  ‧使用爬行程序測試你的網站

好評推薦

  「本書涵蓋的工具與範例,讓我輕易把好幾個重複的工作自動化,騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發,又能很快讀完的好書。」 — Eric VanWyk, 電子計算機工程師,麻州歐林工程學院

Brand Slider