突發(fā)重大事故,我們運(yùn)維這樣進(jìn)行處理(1)
2016-02-20 19:34:04 來(lái)源: 余何 高效運(yùn)維 評(píng)論:0 點(diǎn)擊:
作者介紹
余何,外號(hào):眾神的大師兄,運(yùn)維心靈捕手,十余年IT金融運(yùn)維經(jīng)驗(yàn),一直任職于某世界100強(qiáng)企業(yè),參與并主導(dǎo)過(guò)各大神秘項(xiàng)目,熱愛(ài)開(kāi)源、感悟運(yùn)維、癡迷于IT技術(shù)。
前言
It is the time you have wasted on your rose that makes your rose so important.
這是平凡的世界,不平凡的運(yùn)維專欄的第一期,我很難以一種感性的方式告訴別人運(yùn)維是做什么的,以至于對(duì)不同人會(huì)有不同的譬喻。
對(duì)于父母,運(yùn)維是當(dāng)前世界上很穩(wěn)定的工作(讓老人安心)。
對(duì)于妻子,運(yùn)維是計(jì)算機(jī)世界的特工組織(熬夜不歸的好理由)。
對(duì)于朋友,運(yùn)維并不是幫人裝殺毒軟件(告訴別人它不是什么也很重要)。
對(duì)于業(yè)內(nèi)人士,運(yùn)維是可用率99.99%(我覺(jué)得以后要換一種方式)。
對(duì)于公司老板,運(yùn)維是一門并不需要知道它有多精彩,但必須重視的崗位(這真的很難,也很矛盾)。
好了,讓我們開(kāi)啟今天的主題,運(yùn)維事件處理經(jīng)驗(yàn)談。
運(yùn)維是一朵需要花時(shí)間照料的玫瑰
UIOC
為了保證可用率99.99%,除了在應(yīng)用架構(gòu)、資源容量上做足功夫外,運(yùn)維人員還要面對(duì)一個(gè)事實(shí),那就是異常、故障、突發(fā)事件總會(huì)發(fā)生,這在管理上必須有一個(gè)流程方法來(lái)應(yīng)對(duì)之。
在我們組織內(nèi)部有兩個(gè)處理流程,對(duì)于突發(fā)重大事件,有專門召集各方聯(lián)合診斷的UIOC(ugency incident office center),緊急事故處理中心。而一般事件,我們通過(guò)事件管理通道滿足用戶需求。
多團(tuán)隊(duì)合作
UIOC的目的在于快速調(diào)動(dòng)IT資源,高效協(xié)同診斷事件,在這個(gè)過(guò)程中,開(kāi)發(fā)關(guān)注應(yīng)用邏輯、運(yùn)營(yíng)關(guān)注業(yè)務(wù)影響、運(yùn)維關(guān)注底層資源、DBA關(guān)注數(shù)據(jù)庫(kù)。
流程啟動(dòng)的第一步是將大家召集就位。溝通工具、渠道有多種,面對(duì)面溝通、郵件列表、即時(shí)通訊、視頻會(huì)議等,不同團(tuán)隊(duì)類型有不同的處理習(xí)慣。但在事前,我們就應(yīng)當(dāng)將這些通道提前建立,并驗(yàn)證隨時(shí)可用。
UIOC是一個(gè)聯(lián)合診斷、積極配合過(guò)程,通常會(huì)有一個(gè)經(jīng)驗(yàn)豐富的人員來(lái)現(xiàn)場(chǎng)指揮、協(xié)調(diào)各團(tuán)隊(duì)間的工作。
UIOC溝通工具很重要
UIOC六步驟
UIOC流程啟動(dòng)后,如沒(méi)有統(tǒng)一管理,則很容易陷入到一片混亂中,我們一般會(huì)參照下面五點(diǎn)次序進(jìn)行問(wèn)題分析:
1.問(wèn)題描述
啟動(dòng)UIOC后,會(huì)對(duì)問(wèn)題、異常進(jìn)行一個(gè)簡(jiǎn)單描述,如xx系統(tǒng)的xx功能無(wú)法使用。
另外,高層會(huì)關(guān)注業(yè)務(wù)影響,在這個(gè)步驟中,運(yùn)營(yíng)人員應(yīng)當(dāng)迅速的抽取出業(yè)務(wù)變化率。
2.應(yīng)用架構(gòu)
在問(wèn)題、業(yè)務(wù)影響描述清楚后,下一步是系統(tǒng)負(fù)責(zé)人對(duì)應(yīng)用的整體部署架構(gòu)進(jìn)行說(shuō)明(對(duì)于問(wèn)題所在模塊一目了然的這步可省略)。
這個(gè)整體部署架構(gòu)中包括了主要的配置信息、關(guān)聯(lián)方等,其主要目的在于縮小問(wèn)題范圍。
3.版本變更
依據(jù)應(yīng)用架構(gòu)的輸出來(lái)判斷在這個(gè)范圍內(nèi)是否有組件版本發(fā)布、基礎(chǔ)資源變更。
大部分故障都是由“變”而起,不是外部(訪問(wèn)量、安全攻擊),就是內(nèi)部(版本、變更)。
該步驟幫助我們發(fā)現(xiàn)內(nèi)部變化,如若找到相關(guān)影響對(duì)象,可以考慮準(zhǔn)備回滾步驟、方案。
4.信息收集
以上三步應(yīng)當(dāng)是習(xí)慣性地快速完成, 如仍無(wú)法準(zhǔn)確定位到問(wèn)題點(diǎn)的話,極有可能陷入到僵持狀態(tài)中。
信息收集階段,各團(tuán)隊(duì)開(kāi)始各自挖礦,開(kāi)發(fā)人員查看用戶訪問(wèn)量、應(yīng)用異常日志,運(yùn)維人員檢查基礎(chǔ)資源情況,包括性能數(shù)據(jù)、日志信息,DBA檢查數(shù)據(jù)庫(kù)等待事件、top sql等,再將各自發(fā)現(xiàn)的可疑點(diǎn)共享出來(lái),盡可能形成問(wèn)題關(guān)聯(lián),比如存儲(chǔ)發(fā)現(xiàn)IO延時(shí)比較高,請(qǐng)DBA確認(rèn)是否有影響(不是所有的延時(shí)都影響數(shù)據(jù)庫(kù))。
上一篇:百度如何優(yōu)化多數(shù)據(jù)中心的帶寬成本?(1)
下一篇:Redis Cluster遷移遇到的各種運(yùn)維坑及解決方案(1)

頻道總排行
- Cisco NetFlow v9為何無(wú)人問(wèn)津?
- 技術(shù)專題:智能化運(yùn)維
- 開(kāi)源代碼管理:如何安全地使用開(kāi)源庫(kù)?
- Facebook架構(gòu)解讀
- IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 金山運(yùn)維肖力:如何將業(yè)務(wù)遷移到虛擬化環(huán)境并穩(wěn)定運(yùn)行(1)
- Apache Ignite(四):基于Ignite的分布式ID生成器
- CrazyEye,一款國(guó)人開(kāi)源的堡壘機(jī)軟件(1)
- SDN時(shí)代的網(wǎng)絡(luò)管理系統(tǒng)會(huì)走向何方
- WOT2016吳兆松:Zabbix監(jiān)控自動(dòng)化的未來(lái)如何發(fā)展
頻道本月排行
- 8你消費(fèi)我買單——"漏洞"天使OneRASP...
- 7有了Jenkins,為什么還需要一個(gè)獨(dú)立...
- 6IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 5新浪微博王傳鵬:微博推薦架構(gòu)的演進(jìn)(1)
- 4史上最大機(jī)器學(xué)習(xí)數(shù)據(jù)集,雅虎對(duì)外開(kāi)...
- 4雅虎開(kāi)源可以提升流操作速度的DataSketches
- 4大眾點(diǎn)評(píng)高可用性系統(tǒng)運(yùn)維經(jīng)驗(yàn)分享
- 4云運(yùn)維如何選擇部署適合自身的IDC和...
- 4開(kāi)源還是商用?十大云運(yùn)維監(jiān)控工具測(cè)...
- 4論開(kāi)發(fā)與運(yùn)維沖突的根源、表現(xiàn)形式及...