內容簡介
文字探勘,離我們一點都不遙遠。
小至今天吃什麼,大至國際動態趨勢,
想知道風往哪吹熱度怎麼蹭,就是派它上場的時刻!
✦每位渴望突破的程式設計新手都應該閱讀的一本書✦
隨書附贈光碟:內含範例程式資料檔、習題解答程式檔。從做中學,效果加倍!
翻開程式工具書就頭昏眼花的症頭
✔口語化的親切教學,不怕你嫌生硬只怕你嫌囉嗦
埋頭學習卻經常找不到方向的迷航學子
✔範例導引式編排,附習題,示範編碼、驗收成果。
不甘於紙上談兵的實用主義者
✔豐富多元的探勘實作,PChome 24h、Google 學術、PTT八卦版
到達純文字極限,數位學習上癮的科技人
✔QRcode影音課程畫龍點睛,針對部份操作重點,加強吸收力度。
▶▶▶
大數據時代,網路的電子化文本恆河沙數,新聞、google、PTT、部落格、購物網、Facebook、Twitter,無一不是非結構化資料。偏偏在0和1的世界,要想馴服它們,就必須「轉換」為電腦可判讀的結構化資料。
這個「轉換」的過程,就是文字探勘的研究領域,具有高度商業價值。
本書給魚也給竿,帶領我們駕馭這項新興技術。
攜手踏入網路爬蟲的場域,無論你是——
●程式設計零基礎,想在網路進行資料探勘的初心者
●統計學一知半解,卻需要時刻關注最新動態的社群小編
●需要快速調查、統合資源的市調顧問、行銷企劃工作者
●正好缺乏質性文本分析數據的社會科學研究者
使用最新版本的Python3,易讀、易學且擴展性強的語法特點。
●從零開始,由安裝教起,快速習得10大基本技巧、萃取有用資訊。
●現學現賣,5大實戰演練,精進探勘能力:PChome 24h-商品資料、Google學術-論文資料、PTT 八卦版-PO文資料、誠品金石堂-書籍比價系統、PTT 政黑版-文字雲和長條圖。
▶▶▶
按部就班,嗅得先機。
你,也可以是全新領域的開拓者!
小至今天吃什麼,大至國際動態趨勢,
想知道風往哪吹熱度怎麼蹭,就是派它上場的時刻!
✦每位渴望突破的程式設計新手都應該閱讀的一本書✦
隨書附贈光碟:內含範例程式資料檔、習題解答程式檔。從做中學,效果加倍!
翻開程式工具書就頭昏眼花的症頭
✔口語化的親切教學,不怕你嫌生硬只怕你嫌囉嗦
埋頭學習卻經常找不到方向的迷航學子
✔範例導引式編排,附習題,示範編碼、驗收成果。
不甘於紙上談兵的實用主義者
✔豐富多元的探勘實作,PChome 24h、Google 學術、PTT八卦版
到達純文字極限,數位學習上癮的科技人
✔QRcode影音課程畫龍點睛,針對部份操作重點,加強吸收力度。
▶▶▶
大數據時代,網路的電子化文本恆河沙數,新聞、google、PTT、部落格、購物網、Facebook、Twitter,無一不是非結構化資料。偏偏在0和1的世界,要想馴服它們,就必須「轉換」為電腦可判讀的結構化資料。
這個「轉換」的過程,就是文字探勘的研究領域,具有高度商業價值。
本書給魚也給竿,帶領我們駕馭這項新興技術。
攜手踏入網路爬蟲的場域,無論你是——
●程式設計零基礎,想在網路進行資料探勘的初心者
●統計學一知半解,卻需要時刻關注最新動態的社群小編
●需要快速調查、統合資源的市調顧問、行銷企劃工作者
●正好缺乏質性文本分析數據的社會科學研究者
使用最新版本的Python3,易讀、易學且擴展性強的語法特點。
●從零開始,由安裝教起,快速習得10大基本技巧、萃取有用資訊。
●現學現賣,5大實戰演練,精進探勘能力:PChome 24h-商品資料、Google學術-論文資料、PTT 八卦版-PO文資料、誠品金石堂-書籍比價系統、PTT 政黑版-文字雲和長條圖。
▶▶▶
按部就班,嗅得先機。
你,也可以是全新領域的開拓者!
作者簡介
譯者介紹
目錄
自 序
Chapter 01 Python 簡介
1-1 何謂程式設計
1-2 Python 程式設計的特點
1-3 選擇 Python 作為第一種程式語言的理由
1-4 安裝Python 與環境設定
1-5 安裝編輯器:Visual Studio Code
1-6 建置Anaconda 開發環境
Chapter 02 資料型態
2-1 Python 處理的資料類型
2-2 數值型態
2-3 字串型態
2-4 變數
2-5 數值和字串間型態的轉換
Chapter 03 流程控制
3-1 流程控制的構成要素
3-2 條件分岐
3-3 input 函式
3-4 條件運算式的組成
3-5 多向的條件分岐
Chapter 04 串列與迴圈
4-1 串列的意義與操作
4-2 for 迴圈
4-3 for 迴圈和if 敘述的組合運用
4-4 range() 函式
4-5 亂數的運用
4-6 break 及continue 命令
4-7 while 迴圈
4-8 進階串列操作
Chapter 05 元組、字典與集合
5-1 元組
5-2 字典
5-3 集合
Chapter 06 函式
6-1 函式的意義
6-2 函式的參數
6-3 函式與變數的作用範圍
Chapter 07 錯誤與例外
7-1 錯誤的型態
7-2 例外
7-3 例外處理
7-4 錯誤的種類
Chapter 08 網頁爬蟲的簡單範例
8-1 網頁爬蟲(Web Scraping)
8-2 網路爬蟲的執行步驟
8-3 向網路伺服器發送請求服務的訊息
8-4 解析網頁資訊
8-5 BeautifulSoup 的運用:於自由時報電子報網站進行爬蟲
Chapter 09 向伺服器發送請求的方式
9-1 網頁爬蟲的基本步驟
9-2 送出簡單的GET 請求
9-3 送出帶有參數的GET 請求
9-4 送出帶有參數的GET 請求至Ajax 網頁
9-5 送出帶有Cookie 的GET 請求
9-6 送出帶有Headers 的GET 請求
9-7 以form 形式發送POST 請求
9-8 送出帶有登入Cookie 的POST 請求
9-9 模擬登入
Chapter 10 萃取有用資訊
10-1 網頁萃取的工作內容
10-2 本章所使用的範例網頁
10-3 走訪DOM 文件樹
10-4 搜尋DOM 文件樹
10-5 CSS 選擇器
Chapter 11 爬取「PChome 24h 購物」的商品資料
11-1 PChome 24h 購物網站
11...
Chapter 01 Python 簡介
1-1 何謂程式設計
1-2 Python 程式設計的特點
1-3 選擇 Python 作為第一種程式語言的理由
1-4 安裝Python 與環境設定
1-5 安裝編輯器:Visual Studio Code
1-6 建置Anaconda 開發環境
Chapter 02 資料型態
2-1 Python 處理的資料類型
2-2 數值型態
2-3 字串型態
2-4 變數
2-5 數值和字串間型態的轉換
Chapter 03 流程控制
3-1 流程控制的構成要素
3-2 條件分岐
3-3 input 函式
3-4 條件運算式的組成
3-5 多向的條件分岐
Chapter 04 串列與迴圈
4-1 串列的意義與操作
4-2 for 迴圈
4-3 for 迴圈和if 敘述的組合運用
4-4 range() 函式
4-5 亂數的運用
4-6 break 及continue 命令
4-7 while 迴圈
4-8 進階串列操作
Chapter 05 元組、字典與集合
5-1 元組
5-2 字典
5-3 集合
Chapter 06 函式
6-1 函式的意義
6-2 函式的參數
6-3 函式與變數的作用範圍
Chapter 07 錯誤與例外
7-1 錯誤的型態
7-2 例外
7-3 例外處理
7-4 錯誤的種類
Chapter 08 網頁爬蟲的簡單範例
8-1 網頁爬蟲(Web Scraping)
8-2 網路爬蟲的執行步驟
8-3 向網路伺服器發送請求服務的訊息
8-4 解析網頁資訊
8-5 BeautifulSoup 的運用:於自由時報電子報網站進行爬蟲
Chapter 09 向伺服器發送請求的方式
9-1 網頁爬蟲的基本步驟
9-2 送出簡單的GET 請求
9-3 送出帶有參數的GET 請求
9-4 送出帶有參數的GET 請求至Ajax 網頁
9-5 送出帶有Cookie 的GET 請求
9-6 送出帶有Headers 的GET 請求
9-7 以form 形式發送POST 請求
9-8 送出帶有登入Cookie 的POST 請求
9-9 模擬登入
Chapter 10 萃取有用資訊
10-1 網頁萃取的工作內容
10-2 本章所使用的範例網頁
10-3 走訪DOM 文件樹
10-4 搜尋DOM 文件樹
10-5 CSS 選擇器
Chapter 11 爬取「PChome 24h 購物」的商品資料
11-1 PChome 24h 購物網站
11...