網絡爬蟲是當今獲取數據不可或缺的重要手段。本書講解了Python爬蟲的基礎知識和必備技能,幫助零基礎的讀者快速入門並熟練使用爬蟲。
全書共8章。第1章講解Python開發環境的安裝與配置以及Python的基礎語法知識。第2章講解如何運用Requests庫和Selenium庫獲取網頁源代碼。第3章講解如何運用正則表達式和BeautifulSoup庫解析和提取數據。第4章深入講解Selenium庫在商業實戰中的進階應用。第5章講解爬蟲數據的處理與可視化。第6章講解爬蟲數據結構化神器pandas庫,以及如何通過Python在MySQL數據庫中讀寫數據。第7章講解如何運用多線程和多進程技術提高爬蟲效率。第8章講解如何運用IP代理應對網站的反爬機制。
本書對於編程新手來說非常友好,從Python基礎到爬蟲原理再到實戰應用,循序漸進地幫助讀者打好基礎。對於有一定Python爬蟲基礎的讀者,本書也針對實戰中常見的疑點和難點提供瞭解決技巧。