<內容簡介>
《統計自然語言處理(第2版)》全面介紹了統計自然語言處理的基本概念、理論方法和最新研究進展,內容包括形式語言與自動機及其在自然語言處理中的應用、語言模型、隱馬爾可夫模型、語料庫技術、漢語自動分詞與詞性標註、句法分析、詞義消歧、篇章分析、統計機器翻譯、語音翻譯、文本分類、信息檢索與問答系統、自動文摘和信息抽取、口語信息處理與人機對話系統等,既有對基礎知識和理論模型的介紹,也有對相關問題的研究背景、實現方法和技術現狀的詳細闡述。
<章節目錄>
第1章緒論
1.1基本概念
1.1.1語言學與語音學
1.1.2自然語言處理
1.1.3關於“理解”的標準
1.2自然語言處理研究的內容和麵臨的困難
1.2.1自然語言處理研究的內容
1.2.2自然語言處理涉及的幾個層次
1.2.3自然語言處理面臨的困難
1.3自然語言處理的基本方法及其發展
1.3.1自然語言處理的基本方法
1.3.2自然語言處理的發展
1.4自然語言處理的研究現狀
1.5本書的內容安排
第2章預備知識
2.1概率論基本概念
2.1.1概率
2.1.2最大似然估計
2.1.3條件概率
2.1.4貝葉斯法則
2.1.5隨機變量
2.1. 6二項式分佈
2.1.7聯合概率分佈和條件概率分佈
2.1.8貝葉斯決策理論
2.1.9期望和方差
2.2信息論基本概念
2.2.1熵
2.2.2聯合熵和條件熵
2.2.3互信息
2.2.4相對熵
2.2.5交叉熵
2.2.6困惑度
2.2.7噪聲通道模型
2.3支持向量機
2.3.1線性分類
2.3.2線性不可分
2.3.3構造核函數
第3章形式語言與自動機
3.1基本概念
3.1.1圖
3.1.2樹
3.1.3字符串
3。2形式語言
3.2.1概述
3.2.2形式語法的定義
3.2.3形式語法的類型
3.2.4 CFG識別句子的派生樹表示
3.3自動機理論
3.3.1有限自動機
3.3.2正則文法與自動機的關係
3.3.3上下文無關文法與下推自動機
3.3.4圖靈機
3.3.5線性界限自動機
3.4自動機在自然語言處理中的應用
3.4.1單詞拼寫檢查
3.4.2單詞形態分析
3.4.3詞性消歧
第4章語料庫與語言知識庫
4.1語料庫技術
4.1.1概述
4.1.2語料庫語言學的發展
4.1.3語料庫的類型
4.1. 4漢語語料庫建設中的問題
4.1.5典型語料庫介紹
4.2語言知識庫
4.2.1 WordNet
4.2.2 FrameNet
4.2.3 EDR
4.2.4北京大學綜合型語言知識庫
4.2.5知網
4.2.6概念層次網絡
4.3語言知識庫與本體論
第5章語言模型
5.1n元語法
5.2語言模型性能評價
5.3數據平滑
5.3.1問題的提出
5.3.2加法平滑方法
5.3.3古德—INN(Good—Turing)估計法
5.3.4 Katz平滑方法
5.3.5 Jelinek—Mercer平滑方法
5.3.6 Witten—Bell平滑方法
5.3.7絕對減值法
5.3.8 Kneser—Ney平滑方法
5.3.9算法總結
5.4其他平滑方法
5.4.1 Church —Gale平滑方法
5.4.2貝葉斯平滑方法