自然語言處理(NLP)是電腦與人類(自然)語言交互的一個領域,涉及電腦科學、人工智能以及計算語言學。特別是,自然語言處理應用了電腦程序設計來處理大規模的自然語言數據。
本書包含的實例可以讓你學會使用NLTK(處理NLP任務的主要Python平臺)完成自然語言處理的各種任務,涵蓋了自然語言理解、自然語言處理和句法分析等。你將學會如何理解語言、處理句子及各種歧義現象;你也將學會如何有效地使用NLTK來進行文本分類、分詞及詞性標註等多個任務;你還將學會如何分析詞匯和句子結構,並掌握句法分析、語義分析、語用分析以及深度學習技術的應用。
讀完本書,你將瞭解使用Python實現自然語言處理的所有內容。
你將學到:
瞭解NLTK提供的各類可利用的語料資源,以及如何使用WordNet。
學習如何處理原始文本,比如HTML、RSS、PDF和Word文檔等。
學習如何利用分詞、詞乾提取和拼寫檢查等方式對原始文本進行預處理,並學會利用正則表達式實現。
瞭解正則表達式在文本分析中的基本匹配模式。
學會使用和編寫詞性標註器與文法。
學會如何實現命名實體抽取和句法分析,比如遞歸下降句法分析器、shift-reduce分析器和線圖分析器等。
使用LSTM技術基於莎士比亞著作生成文本。
使用BABI數據集和LSTM技術對情景記憶建模。
使用深度學習開發生成式聊天機器人。