運維必備制度:故障分級和處罰規范
2016-03-07 14:48:13 來源: 唐文 運維幫 評論:0 點擊:
作者簡介
唐文,《海量運維、運營規劃之道》一書作者,關于海量運維、運營規劃,我想業界都沒有準確的定義,假如說互聯網的架構師用能否設計多高的摩天大樓來衡量架構能力,那運維、運營更多的是在關注互聯網服務的質量、效率、成本、故障、瓶頸,用戶的忍耐、抱怨等問題。
在接下來的日子里,將以質量、效率、成本為核心,從運營規劃、管理、流程/規范、系統/平臺,監控、告警、安全、優化、考核等幾個維度結合案例來與大家分享自己的體會,內容大致如下所示。
編者按:一個好的制度是可操作、可執行的,不是高高掛起的。每個公司情況不同,制度需要定期根據公司自身情況進行適當修改,以下文章算是一個制度的模板,僅供參考,要想使用肯定還需要修改。
正文
互聯網產品提供7*24小時服務,而因人為操作、程序Bug等原因導致服務不可用是影響服務持續運行的重要原因,為了提高各業務產品的運維和運營質量,規范各業務線的服務、故障響應,擬定和發布“故障分級和處罰規范”是非常必要的。
故障分級標準
運營故障中,對非不可抗力所造成的故障歸類為“故障”,對于故障將追究故障的分級,故障責任人,及故障處理結果。下面將就各類故障級別進行定義說明,由于故障可能在多方面體現影響,所以故障的綜合等級評定原則,取各個方面中嚴重等級最高者為該故障綜合嚴重等級,故障分級如下所示。
故障分級表
故障獎懲制度
運營故障處理評定是根據相關責任人對故障的響應、處理、完成結果等因素來對故障的處理情況進行綜合評定,部門內會依據這個評定來對故障處罰等級進行調整。該評定只用于由部門內決定的故障處罰分級,公司的處罰條例不受此約束。符合下面條件者,可以對故障處罰等級進行適當降級,具體所降等級由部門領導決定,故障升級制如下所示。
故障升級制度表
對于所出現的各級運營故障,如果運營故障的主要原因由人為工作疏忽/失誤所導致,參照以下處罰標準對個人和項目組進行相關懲處,任何運營故障,要及時通報相關領導或相關處理人員,對于延報、瞞報故障者,將從嚴處罰,故障分級及處罰如下所示。
故障分級表
【編輯推薦】
