內容簡介
最專業的語音辨識全書:使用深度學習實作
內容簡介
語音辨識已經逐漸進入人們的日常生活,語音辨識技術是涉及語言、電腦、數學等領域的交叉學科。
全書從語音辨識的基礎講起,並輔以翔實的案例,介紹包括C#、Perl、Python、Java等多種程式設計語言實作,開放程式碼語音辨識工具套件Kaldi的使用與程式碼分析,深度學習的開發環境搭建,旋積神經網路,以及語音辨識中常見的語言模型--N元模型和依存模型等,讓讀者快速瞭解語音辨識基礎,掌握開發語音辨識程式的演算法。
本書主要內容:
語音辨識技術
■ C# 開發語音辨識
■ Perl 開發語音辨識
■ Python 開發語音辨識
■ Java 開發語音辨識
■ 語音訊號處理
■ 深度學習
■ 語言模型
適合讀者群:
需要具體實現語音辨識的程式設計師,或有一定機器學習或語音辨識基礎的從業者、學生、研究者閱讀參考。
本書特色
◎ 引領語音辨識技術升級
◎ 業界流行的Kaldi語音辨識技術實作
內容簡介
語音辨識已經逐漸進入人們的日常生活,語音辨識技術是涉及語言、電腦、數學等領域的交叉學科。
全書從語音辨識的基礎講起,並輔以翔實的案例,介紹包括C#、Perl、Python、Java等多種程式設計語言實作,開放程式碼語音辨識工具套件Kaldi的使用與程式碼分析,深度學習的開發環境搭建,旋積神經網路,以及語音辨識中常見的語言模型--N元模型和依存模型等,讓讀者快速瞭解語音辨識基礎,掌握開發語音辨識程式的演算法。
本書主要內容:
語音辨識技術
■ C# 開發語音辨識
■ Perl 開發語音辨識
■ Python 開發語音辨識
■ Java 開發語音辨識
■ 語音訊號處理
■ 深度學習
■ 語言模型
適合讀者群:
需要具體實現語音辨識的程式設計師,或有一定機器學習或語音辨識基礎的從業者、學生、研究者閱讀參考。
本書特色
◎ 引領語音辨識技術升級
◎ 業界流行的Kaldi語音辨識技術實作
作者簡介
作者簡介
柳若邊
獵兔搜索團隊核心成員,曾任職中國萬網、三星等業界知名公司,現為教育培訓機構專業講師。獵兔搜索專注於自然語言處理等人工智慧領域的技術開發與實現。在北京和上海等地均有獵兔培訓的學員,出版的相關技術圖書讀者遍及全球華人圈。
柳若邊
獵兔搜索團隊核心成員,曾任職中國萬網、三星等業界知名公司,現為教育培訓機構專業講師。獵兔搜索專注於自然語言處理等人工智慧領域的技術開發與實現。在北京和上海等地均有獵兔培訓的學員,出版的相關技術圖書讀者遍及全球華人圈。
內容目錄
目錄
| 01 | 語音辨識技術
1.1 整體結構
1.2 Linux 基礎
1.3 安裝Micro 編輯器
1.4 安裝Kaldi
1.5 yesno 實例
1.6 建置一個簡單的ASR
1.7 Voxforge實例
1.8 資料準備
1.9 加權有限狀態轉換
1.10 語音辨識語料庫
1.11 Linux shell指令稿基礎
| 02 | C# 開發語音辨識
2.1 準備開發環境
2.2 計算旋積
2.3 記錄語音
2.4 讀取語音訊號
2.5 離散傅立葉轉換
2.6 移除靜音
| 03 | Perl 開發語音辨識
3.1 變數
3.2 多維陣列
3.3 常數
3.4 運算符號
3.5 控制流
3.6 檔案與目錄
3.7 常式
3.8 執行指令
3.9 正規表示法
3.10 命令列參數
| 04 | Python 開發語音辨識
4.1 Windows作業系統下安裝Python
4.2 Linux作業系統下安裝Python
4.3 選擇版本
4.4 開發環境
4.5 註釋
4.6 變數
4.7 陣列
4.8 列表
4.9 元組
4.10 字典
4.11 控制流
4.12 模組
4.13 函數
4.14 讀寫檔案
4.15 物件導向程式設計
4.16 命令列參數
4.17 資料庫
4.18 記錄檔記錄
4.19 例外處理
4.20 測試
4.21 語音活動檢測
4.22 使用numpy
| 05 | Java 開發語音辨識
5.1 實現旋積
5.2 KaldiJava
5.3 TensorFlow的Java介面
| 06 | 語音訊號處理
6.1 使用FFmpeg
6.2 標記語音
6.3 時間序列
6.4 端點檢測
6.5 動態時間規整
6.6 傅立葉轉換
6.7 MFCC特徵
6.8 說話者識別
6.9 解碼
| 07 | 深度學習
7.1 神經網路基礎
7.2 旋積神經網路
7.3 架設深度學習開發環境
7.4 nnet3實現程式
7.5 編譯Kaldi
7.6 點對點深度學習
7.7 Dropout解決過度擬合問題
7.8 矩陣運算
| 08 | 語言模型
8.1 機率語言模型
8.2 KenLM語言模型工具套件
8.3 ARPA檔案格式
8.4 依存語言模型
| A | 術語及含義
| 01 | 語音辨識技術
1.1 整體結構
1.2 Linux 基礎
1.3 安裝Micro 編輯器
1.4 安裝Kaldi
1.5 yesno 實例
1.6 建置一個簡單的ASR
1.7 Voxforge實例
1.8 資料準備
1.9 加權有限狀態轉換
1.10 語音辨識語料庫
1.11 Linux shell指令稿基礎
| 02 | C# 開發語音辨識
2.1 準備開發環境
2.2 計算旋積
2.3 記錄語音
2.4 讀取語音訊號
2.5 離散傅立葉轉換
2.6 移除靜音
| 03 | Perl 開發語音辨識
3.1 變數
3.2 多維陣列
3.3 常數
3.4 運算符號
3.5 控制流
3.6 檔案與目錄
3.7 常式
3.8 執行指令
3.9 正規表示法
3.10 命令列參數
| 04 | Python 開發語音辨識
4.1 Windows作業系統下安裝Python
4.2 Linux作業系統下安裝Python
4.3 選擇版本
4.4 開發環境
4.5 註釋
4.6 變數
4.7 陣列
4.8 列表
4.9 元組
4.10 字典
4.11 控制流
4.12 模組
4.13 函數
4.14 讀寫檔案
4.15 物件導向程式設計
4.16 命令列參數
4.17 資料庫
4.18 記錄檔記錄
4.19 例外處理
4.20 測試
4.21 語音活動檢測
4.22 使用numpy
| 05 | Java 開發語音辨識
5.1 實現旋積
5.2 KaldiJava
5.3 TensorFlow的Java介面
| 06 | 語音訊號處理
6.1 使用FFmpeg
6.2 標記語音
6.3 時間序列
6.4 端點檢測
6.5 動態時間規整
6.6 傅立葉轉換
6.7 MFCC特徵
6.8 說話者識別
6.9 解碼
| 07 | 深度學習
7.1 神經網路基礎
7.2 旋積神經網路
7.3 架設深度學習開發環境
7.4 nnet3實現程式
7.5 編譯Kaldi
7.6 點對點深度學習
7.7 Dropout解決過度擬合問題
7.8 矩陣運算
| 08 | 語言模型
8.1 機率語言模型
8.2 KenLM語言模型工具套件
8.3 ARPA檔案格式
8.4 依存語言模型
| A | 術語及含義
ISBN: 9789869772679