當Google翻譯像空氣一樣自然的存在時,我們仿佛忘了機器翻譯走了幾百年,篳路藍縷有多麼的艱辛。身為使用者在享受這些科技的成果時,技術人員則更好奇些神奇應用底層的科學是如何發展出來的。熟悉史丹佛CS224n NLP課程的人,一定對大師Chris Manning對機器翻譯的重點十分讚嘆。本書就是堪比大師NLP和機器翻譯的真正鉅作。從機器翻譯的歷史、數學原理、理論細節、實作理論、參考資源、最新發展、從最細節到最宏觀的高度都放入書中。NLP是AI上皇冠上的一個明珠,機器翻譯更是最能展現NLP技術的極緻精華。從事NLP的技術人員、資料科學家、神經網路演算法科學家,如果想要真正進入NLP的世界,本書將會是20年來最重要,最完整、最能精進技術的一個重要提升。
本書特色
◎機器翻譯簡介
說明了從理性主義一直進入到資料主義的過程。接下來說明統計語言建模的基礎,進一步進入詞法語法分析的原理,其中並穿插了翻譯品質的評鑑標準。
◎統計機器翻譯
介紹了以詞、扭曲度、繁衍度、短語、句法為基礎的機器翻譯原理及實作。
◎近代機器翻譯的新世代 – 神經機器翻譯
介紹了神經網路及神經語言的建模、循環神經網路模型、卷積神經網路模型及自注意力機制的模型。
◎神經翻譯系統的細節
包括模型訓練及最佳化,模型的推論,更有針對神經網路系統的結構精進,以及使用低資源的神經網路(如資料蒸餾),以及多模態、多層次的機器翻譯,也介紹了新一代神經網路的應用及發展。
本書技術重點
✪理性主義及資料主義
✪統計語言建議
✪詞法/語法分析,以機率圖/分類器模型
✪科學方法評估翻譯品質
✪以詞、扭曲度/繁衍度、短語、句法模型的翻譯方法
✪Google大殺器:神經機器翻譯建模
✪循環神經網路模型/注意力機制,卷積神經網路模型
✪Transformer,自注意力機制
✪神經網路翻譯模型訓練/推論/結構最佳化
✪小型裝置上的神經網路機器翻譯
✪多模態/多層次機器翻譯
✪當代機器翻譯的應用及佈署