全書共9章,主要介紹如何使用基於R的整潔工具來進行文本分析。首先介紹了整潔文本的格式,以及如何獲取整潔文本數據集;並通過tidytext中的情感數據集來進行情緒分析;接着介紹了如何根據tf-idf統計量來識別特定文檔中的重要單詞,以及如何利用n-gram來分析文本中的文字網絡;之后介紹了如何將整潔文本轉換為文檔詞項矩陣和Corpus對象格式,並給出了主題建模的概念;最后通過整合多種已知的整潔文本挖掘方法,給出了一些研究案例,這些案例涉及Twitter歸檔文件、NASA數據集以及來自新聞組的即時通信信息。總的來說,本書側重於分析文學、新聞和社交媒體方面的文本,非常適合從事相關文本挖掘的工作人員和自然語言的初學者閱讀。與此同時,使用書中提供的大量針對性編程例子,不但可以提高工程實戰能力,而且可以在本書提到的整潔框架上建立自己的分析任務。