SRE 全名是 Site Reliability Engineering 網站可靠性工程
SRE 是 Google 提倡的系統管理實踐之道、指導思想,這個名詞同時也是 軟體工程師 (Software Engineer) 的角色,可以類比於傳統的維運工程師或系統工程師,但是 SRE 是用 計算機科學 和 軟體工程 手段,實踐 大型系統維運、分散式系統 的設計與開發。
- 91APP 技術經理 Rick Hwang 專文推薦
大型軟體系統生命週期的絕大部分都處於「使用」階段,而非「設計」或「實現」階段。那麼,為何我們總是認為軟體工程應該首要關注設計和實現呢?
Google SRE團隊的核心成員在本書中分享了他們是如何對軟體進行生命週期的整體性關注的,以及解說這樣的做法為何能夠幫助Google成功地構建、部署、監控和運維世界上現存最大的軟體系統。您可以從中學習到Google工程師在提高系統部署規模、改進可靠性和資源利用效率方面的思考方式與具體作法。任何一個想要建立、擴展大規模整合系統的人都應該閱讀本書。本書針對如何構建一個可長期維護的系統提供了非常寶貴的實踐經驗。
本書分為以下四個部分:
.簡介:說明何謂網站可靠性工程(SRE)及其與傳統IT業界作法的差異
.原則:介紹SRE日常工作背後的指導原則:SRE的工作模式、行為方式,以及平時維運工作中關注的重點等
.實踐:探討SRE管理大型分散式系統的理念和實踐典範
.管理:介紹Google的訓練與團隊協作的方式
名人推薦
「能讓所有公司受益的高科技管理實務,只有Google能夠辦到的創新。」
—Thomas A.Limoncelli, 《The Practice of Cloud System Administration》共同作者
「web高可用性服務管理人員必讀的一本書」
—Adrian Cockcroft, 前任Netflix雲端架構師
「不管是為了自己還是公司,你都應該熟讀本書並動手實踐這些理念」
—Jez Humble, 《Continuous Delivery》、《精實企業》共同作者