這是一本講述如何用NLP技術進行文本內容理解的著作,
也是一本系統講解NLP算法的著作,是作者在NLP和內容理解領域多年經驗的總結。
本書結合內容理解的實際業務場景,系統全面、
循序漸進地講解了各種NLP算法以及如何用這些算法高效地解決內容理解方面的難題,主要包括如下幾個方面的內容:
(1)文本特徵表示
文本特徵表示是NLP的基石,也是內容理解的基礎環節,
本書詳細講解了離散型表示方法和分佈型表示方法等特徵表示方法及其應用場景,還講解了詞向量的評判標準。
(2)內容重複理解
詳細講解了標題重複、段落重複、文章重複的識別方法和去重算法。
(3)內容通順度識別及糾正
詳細講解了內容通順度的識別方法以及糾正不通順內容的方法。
(4)內容質量
詳細講解了多種內容質量相關的算法,以及如何搭建高質量的知識問答體系的流程。
(5)標籤體系構建
詳細講解了針對內容理解的標籤體系的建設流程和方法,以及多種相關算法。
(6)文本摘要生成
詳細講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法,以及文本摘要的常用數據集和文本摘要評價方法。
(7)文本糾錯
詳細講解了文本糾錯的傳統方法、深度學習方法、工業界解決方案,以及常用的文本糾錯工具的安裝和使用。