❑ 全方位闡明資料科學領域的相關知識,從統計分析、機器學習、深度學習中所運用的演算法及模型,輔以經濟學視角所提供關於模型的精闢見解,深入探討模型的可用性。
❑ 書中結合大量的實際案例與程式碼,幫助讀者學以致用,將具體的應用場景和現有的模型加以結合,從而發現模型更多的潛在應用場景。
❑ 章節架構:
1. 透過簡單的實例導引出模型,詳述其理論基礎;
2. 展示實現模型的核心程式;
3. 探討其優缺點及相關模型的比較。既能直觀地展示模型,亦能結合實際程式進行深入的探究,有助於讀者掌握與使用模型能力的提升。
✤適用讀者
對資料科學有興趣的初學者;資料科學家與工程研發相關技術人員;大專院校計算機、數學及相關領域專業培訓機構。
本書按照結構共分為13 章,主要內容如下。
第1~3章主要介紹資料科學要解決的問題、常用的IT工具Python以及資料科學所相關的數學基礎。
第4~7章主要討論資料模型,包含3部分內容:一是統計中經典的線性迴歸和邏輯迴歸模型;二是電腦估算模型參數的隨機梯度下降法,這是模型專案實現的基礎;三是來自計量經濟學的啟示,主要有關特徵分析的方法以及模型的穩定性。
第8~10章主要討論演算法模型,也就是機器學習領域比較經典的模型,各章依次討論了監督式學習、生成式模型以及非監督式學習。
目前資料科學的兩個前端領域分別是大數據和人工智慧。
第11章介紹大數據中很重要的分散式機器學習。
第12~13章討論人工智慧領域的神經網路和深度學習。
本書除基礎知識外,按照主題亦可分為3部分。
第1部分主要討論統計學派的模型和對資料的處理方法,分別在第4、5、7章。
第2部分主要討論人工智慧學派的方法,分別在第8、9、10、12、13章。
第3部分主要介紹資料科學的專案實現,分別在第6、11章。
在每一章的討論中,一般會透過一個簡單的實例引出模型,然後說明模型的理論基礎,接著展示模型實現的核心程式,最後討論模型的優缺點以及與其他模型的比較。這樣既能很直觀地展示模型,也能結合實際程式較深入地討論它的細節,幫助讀者更進一步地掌握和使用模型。
✤搭配程式
為維持程式碼之可執行完整性,以及確保程式碼是最新版本,本書讀者請直接至https://github.com/GenTang/intro_ds下載簡體版原始程式碼,本公司官網不再另行提供繁體中文版原始程式碼。需要注意的是,為了在正文中節省篇幅,突顯重點,本書所展示的程式是以Linux系統下為基礎的Python 2.7,而提供下載的搭配程式則是相容Python 3和Windows系統的。
✤插圖語言說明
本書中部分插圖中含有未翻譯的英文專有名詞,原因如下。
一方面,目前相關的參考文獻中沒有明確且權威的中文名稱與之對應,如強行翻譯,難保準確,且易給讀者造成誤解。另一方面,對於資料科學這門學科,英文名詞可能更為大家所熟悉,翻譯為中文後也許會讓讀者在了解上更加困難。在此說明,望各位讀者了解和支持。
✤讀者回饋
由於作者功力有限,書中難免存在紕漏之處,敬請各位讀者朋友批評指正。請發送郵件到作者的電子郵件[email protected]或本書編輯的電子郵件[email protected]。
✤致謝
感謝潘健輝博士,他從行文風格和數學細節上為我提出了很多寶貴的意見。感謝我的太太安愷業女士以及我的父母,他們在本書撰寫期間給了我很多鼓勵。感謝李國傑院士、林曉東教授、楊衛東教授、張溪夢(Simon Zhang)先生、易歡歡先生、賈真先生、張益軍先生、彭耀先生、謝佳女士以及趙甘晶女士為本書提供的幫助。感謝我的國中數學老師吳獻女士對我的諄諄教誨。感謝本書的編輯張爽女士為本書的順利出版所做的付出。需要感謝的人還有很多,限於篇幅,這裡就不一一列舉了。
❑ 書中結合大量的實際案例與程式碼,幫助讀者學以致用,將具體的應用場景和現有的模型加以結合,從而發現模型更多的潛在應用場景。
❑ 章節架構:
1. 透過簡單的實例導引出模型,詳述其理論基礎;
2. 展示實現模型的核心程式;
3. 探討其優缺點及相關模型的比較。既能直觀地展示模型,亦能結合實際程式進行深入的探究,有助於讀者掌握與使用模型能力的提升。
✤適用讀者
對資料科學有興趣的初學者;資料科學家與工程研發相關技術人員;大專院校計算機、數學及相關領域專業培訓機構。
本書按照結構共分為13 章,主要內容如下。
第1~3章主要介紹資料科學要解決的問題、常用的IT工具Python以及資料科學所相關的數學基礎。
第4~7章主要討論資料模型,包含3部分內容:一是統計中經典的線性迴歸和邏輯迴歸模型;二是電腦估算模型參數的隨機梯度下降法,這是模型專案實現的基礎;三是來自計量經濟學的啟示,主要有關特徵分析的方法以及模型的穩定性。
第8~10章主要討論演算法模型,也就是機器學習領域比較經典的模型,各章依次討論了監督式學習、生成式模型以及非監督式學習。
目前資料科學的兩個前端領域分別是大數據和人工智慧。
第11章介紹大數據中很重要的分散式機器學習。
第12~13章討論人工智慧領域的神經網路和深度學習。
本書除基礎知識外,按照主題亦可分為3部分。
第1部分主要討論統計學派的模型和對資料的處理方法,分別在第4、5、7章。
第2部分主要討論人工智慧學派的方法,分別在第8、9、10、12、13章。
第3部分主要介紹資料科學的專案實現,分別在第6、11章。
在每一章的討論中,一般會透過一個簡單的實例引出模型,然後說明模型的理論基礎,接著展示模型實現的核心程式,最後討論模型的優缺點以及與其他模型的比較。這樣既能很直觀地展示模型,也能結合實際程式較深入地討論它的細節,幫助讀者更進一步地掌握和使用模型。
✤搭配程式
為維持程式碼之可執行完整性,以及確保程式碼是最新版本,本書讀者請直接至https://github.com/GenTang/intro_ds下載簡體版原始程式碼,本公司官網不再另行提供繁體中文版原始程式碼。需要注意的是,為了在正文中節省篇幅,突顯重點,本書所展示的程式是以Linux系統下為基礎的Python 2.7,而提供下載的搭配程式則是相容Python 3和Windows系統的。
✤插圖語言說明
本書中部分插圖中含有未翻譯的英文專有名詞,原因如下。
一方面,目前相關的參考文獻中沒有明確且權威的中文名稱與之對應,如強行翻譯,難保準確,且易給讀者造成誤解。另一方面,對於資料科學這門學科,英文名詞可能更為大家所熟悉,翻譯為中文後也許會讓讀者在了解上更加困難。在此說明,望各位讀者了解和支持。
✤讀者回饋
由於作者功力有限,書中難免存在紕漏之處,敬請各位讀者朋友批評指正。請發送郵件到作者的電子郵件[email protected]或本書編輯的電子郵件[email protected]。
✤致謝
感謝潘健輝博士,他從行文風格和數學細節上為我提出了很多寶貴的意見。感謝我的太太安愷業女士以及我的父母,他們在本書撰寫期間給了我很多鼓勵。感謝李國傑院士、林曉東教授、楊衛東教授、張溪夢(Simon Zhang)先生、易歡歡先生、賈真先生、張益軍先生、彭耀先生、謝佳女士以及趙甘晶女士為本書提供的幫助。感謝我的國中數學老師吳獻女士對我的諄諄教誨。感謝本書的編輯張爽女士為本書的順利出版所做的付出。需要感謝的人還有很多,限於篇幅,這裡就不一一列舉了。