解密搜尋引擎技術實戰 - Lucene & Java『精華第三版』 | 拾書所

解密搜尋引擎技術實戰 - Lucene & Java『精華第三版』

$ 403 元 原價 474

<內容介紹>

羅剛等編著的《解密搜索引擎技術實戰(附光盤Lucene & Java精華版第3版全新升級)》是獵兔搜索開發團隊的軟件研發和教學實踐的經驗匯總。本書總結搜索引擎相關理論與實際解決方案,並給出了Java實現,其中利用了流行的開源項目Lucene和Solr,而且還包括原創的實現。
    本書主要包括總體介紹部分、爬蟲部分、自然語言處理部分、全文檢索部分以及相關案例分析。爬蟲部分介紹了網頁遍歷方法和如何實現增量抓取,並介紹了從網頁等各種格式的文檔中提取主要內容的方法。自然語言處理部分從統計機器學習的原理出發,包括了中文分詞與詞性標註的理論與實現及在搜索引擎中的應用等細節,同時對文檔排重、文本分類、自動聚類、句法分析樹、拼寫檢查等自然語言處理領域的經典問題進行了深入淺出的介紹,並總結了實現方法。在全文檢索部分,結合Lucene介紹了搜索引擎的原理與進展。用簡單的例子介紹了Lucene的最新應用方法,包括完整的搜索實現過程:從完成索引到搜索用戶界面的實現。此外還進一步介紹了實現準實時搜索的方法,展示了Solr的用法以及實現分佈式搜索服務集群的方法。最後介紹了在地理信息系統領域和戶外活動搜索領域的應用。

<章節目錄>
第1章  搜索引擎總體結構
  1.1  搜索引擎基本模塊
  1.2  開發環境
  1.3  搜索引擎工作原理
    1.3.1  網絡爬蟲
    1.3.2  全文索引結構與Lucene實現
    1.3.3  搜索用戶界面
    1.3.4  計算框架
    1.3.5  文本挖掘
  1.4  本章小結
第2章  網絡爬蟲的原理與應用
  2.1  爬蟲的基本原理
  2.2  爬蟲架構
    2.2.1  基本架構
    2.2.2  分佈式爬蟲架構
    2.2.3  垂直爬蟲架構
  2.3  抓取網頁
    2.3.1  下載網頁的基本方法
    2.3.2  網頁更新
    2.3.3  抓取限制應對方法
    2.3.4  URL地址提取
    2.3.5  抓取JavaScript動態頁面
    2.3.6  抓取即時信息
    2.3.7  抓取暗網
    2.3.8  信息過濾
    2.3.9  最好優先遍歷
  2.4  存儲URL地址
    2.4.1  BerkeleyDB
    2.4.2  布隆過濾器
  2.5  並行抓取
    2.5.1  多線程爬蟲
    2.5.2  垂直搜索的多線程爬蟲
    2.5.3  異步I/O
  2.6  RSS抓取
  2.7  抓取FTP
  2.8  下載圖片
  2.9  圖像的OCR識別
    2.9.1  圖像二值化
    2.9.2  切分圖像
    2.9.3  SVM分類
  2.10  Web結構挖掘
    2.10.1  存儲Web圖
    2.10.2  PageRank演算法
    2.10.3  HITs演算法
    2.10.4  主題相關的PageRank
  2.11  部署爬蟲
  2.12  本章小結
第3章  索引內容提取
  3.1  從HTML文件中提取文本
    3.1.1  識別網頁的編碼

    3.1.2  網頁編碼轉換為字符串編碼
    3.1.3  使用正則表達式提取數據
    3.1.4  結構化信息提取
    3.1.5  網頁的DOM結構
    3.1.6  使用NekoHTML提取信息
    3.1.7  使用Jsoup提取信息
    3.1.8  網頁去噪
    3.1.9  網頁結構相似度計算
    3.1.10  提取標題
    3.1.11  提取日期
  3.2  從非HTML文件中提取文本
    3.2.1  提取標題的一般方法
    3.2.2  PDF文件
    3.2.3  Word文件
    3.2.4  Rtf文件
    3.2.5  Excel文件
    3.2.6  PowerPoint文件
  3.3  流媒體內容提取
    3.3.1  音頻流內容提取
    3.3.2  視頻流內容提取
  3.4  存儲提取內容
  3.5  本章小結
第4章  中文分詞的原理與實現
  4.1  Lucene中的中文分詞
    4.1.1  Lucene切分原理
    4.1.2  Lucene中的Analyzer
    4.1.3  自己寫Analyzer
    4.1.4  Lietu中文分詞
  4.2  查找詞典演算法<

Brand Slider