【內容簡介】
不會艱深晦澀、不再高深莫測
你一定能看懂的自然語言處理入門書！

INTRODUCTION TO NATURAL LANGUAGE PROCESSING

♘Java與Python雙實作：圖文並茂！演算法、數學公式、程式碼相輔相成。
♘探索式學習路徑：循序漸進！從問題、演算法再到範例實作，一目瞭然。

編輯推薦

作者匯集多年經驗，從基本概念出發，逐步介紹中文分詞、詞性標註、命名實體識別、資訊抽取、文字聚類、文字分類、句法分析這幾個熱門問題的演算法原理與工程實作。透過講解多種演算法，比較它們的優缺點與適用場景，同時詳細展示實際專案導向的程式碼，協助讀者真正將自然語言處理（NLP）應用到正式環境之中。

儘管作者目前是NLP領域的翹楚，但他曾是非本科生，對自學入門有親身體驗，深諳初學者的學習痛點。希望透過這本與眾不同的入門讀物，為讀者打開另一扇機會之門，幫助你零起點上手NLP，讓你在通勤時也能把書讀完讀懂！

隨著本書的學習，你將從普通程式設計師晉級為機器學習工程師，最後進化為NLP工程師。

【書籍目錄】
推薦序
推薦語
前言
主要數學符號表

第1章：新手上路
1.1 自然語言與程式語言
1.2 自然語言處理的層次
1.3 自然語言處理的流派
1.4 機器學習
1.5 語料庫
1.6 開源工具
1.7 總結

第2章：詞典分詞
2.1 什麼是詞
2.2 詞典
2.3 切分演算法
2.4 字典樹
2.5 雙陣列字典樹
2.6 AC 自動機
2.7 基於雙陣列字典樹的AC自動機
2.8 HanLP的詞典分詞實作
2.9 準確率評測
2.10 字典樹的其他應用
2.11 總結

第3章：二元語法與中文分詞
3.1 語言模型
3.2 中文分詞語料庫
3.3 訓練
3.4 預測
3.5 評測
3.6 日語分詞
3.7 總結

第4章：隱馬可夫模型與序列標註
4.1 序列標註問題
4.2 隱馬可夫模型
4.3 隱馬可夫模型的樣本生成
4.4 隱馬可夫模型的訓練
4.5 隱馬可夫模型的預測
4.6 隱馬可夫模型應用於中文分詞
4.7 二階隱馬可夫模型 *
4.8 總結

第5章：感知器分類與序列標註
5.1 分類問題
5.2 線性分類模型與感知器演算法
5.3 基於感知器的人名性別分類
5.4 結構化預測問題
5.5 線性模型的結構化感知器演算法
5.6 基於結構化感知器的中文分詞
5.7 總結

第6章：條件隨機域與序列標註
6.1 機器學習的模型譜系
6.2 條件隨機域
6.3 條件隨機域工具包
6.4 HanLP的CRF++ API
6.5 總結

第7章：詞性標註
7.1 詞性標註概述
7.2 詞性標註語料庫與標註集
7.3 序列標註模型應用於詞性標註
7.4 自訂詞性
7.5 總結

第8章：命名實體識別
8.1 概述
8.2 基於規則的命名實體識別
8.3 命名實體識別語料庫
8.4 基於層疊隱馬可夫模型的角色標註框架
8.5 基於序列標註的命名實體識別
8.6 自訂領域命名實體識別
8.7 總結

第9章：資訊抽取
9.1 新詞提取
9.2 關鍵字提取
9.3 短語提取
9.4 關鍵句提取
9.5 總結

第10章：文字聚類
10.1 概述
10.2 文件的特徵提取
10.3 k 平均值演算法
10.4 重複二分聚類演算法
10.5 標準化評測
10.6 總結

第11章：文字分類
11.1 文字分類的概念
11.2 文字分類語料庫
11.3 文字分類的特徵提取
11.4 單純貝氏分類器
11.5 支援向量機分類器
11.6 標準化評測
11.7 情感分析
11.8 總結

第12章：依存句法分析
12.1 短語結構樹
12.2 依存句法樹
12.3 依存句法分析
12.4 基於轉移的依存句法分析
12.5 依存句法分析API
12.6 案例：基於依存句法樹的意見抽取
12.7 總結

第13章：深度學習與自然語言處理
13.1 傳統方法的局限
13.2 深度學習與優勢
13.3 word2vec
13.4 基於神經網路的高效能依存句法分析器
13.5 自然語言處理進階

自然語言處理學習資料推薦
書籍與雜誌
學術會議
公開課程
網站

Site Breadcrumb

Brand Slider