本書可作為跨數據中心機器學習的參考資料,
供人工智能及分佈式計算領域的科研和工程人員閱讀。
本書基於作者多年的研究成果,詳細介紹了跨數據中心機器學習的訓練系統設計和通信優化技術。
本書面向多數據中心間的分佈式機器學習系統,針對多數據中心間有限的傳輸帶寬、動態異構資源,
以及異構數據分佈三重挑戰,自底向上討論梯度傳輸協議、流量傳送調度、高效通信架構、壓縮傳輸機制、
同步優化算法、異構數據優化算法六個層次的優化技術,旨在提升分佈式機器學習系統的訓練效率和模型性能,
突破跨數據中心機器學習的通信瓶頸和數據壁壘,實現多數據中心算力和數據資源的高效整合。
本書可作為跨數據中心機器學習的參考資料,供人工智能及分佈式計算領域的科研和工程人員閱讀。