突發(fā)重大事故,我們運(yùn)維這樣進(jìn)行處理(1)
2016-02-20 19:34:04 來(lái)源: 余何 高效運(yùn)維 評(píng)論:0 點(diǎn)擊:
5.行為決策
UIOC強(qiáng)調(diào)的是快速恢復(fù),而不是問(wèn)題分析,亦即找到問(wèn)題點(diǎn)后可快速采取恢復(fù)方案,而不是將時(shí)間耗費(fèi)在窮根問(wèn)底。
UIOC準(zhǔn)確的說(shuō)是發(fā)現(xiàn)問(wèn)題點(diǎn)在哪里,而不是回答為什么會(huì)有這個(gè)問(wèn)題點(diǎn),對(duì)于已發(fā)現(xiàn)的問(wèn)題點(diǎn),應(yīng)當(dāng)問(wèn):
◆是否可主備切換
◆是否可功能降級(jí)
◆是否可快速擴(kuò)容
◆是否可版本回滾
在該步驟中確定快速恢復(fù)方案。
6.實(shí)施驗(yàn)證
在決策完畢后,實(shí)施方案,并做好驗(yàn)證,確保系統(tǒng)恢復(fù)正常。
事件處理
事件處理的是一些相對(duì)UIOC的緊急度要低、影響面較小的異常。在我們組織內(nèi)部,對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)以及中間件的事件團(tuán)隊(duì)進(jìn)行了整合,因此事件量大,涉及范圍廣,在這里介紹一些通用方法來(lái)幫助一線人員。
通用方法
1.是否可重現(xiàn)
問(wèn)題是否可重現(xiàn)對(duì)于快速解決問(wèn)題來(lái)說(shuō)非常重要,但開(kāi)發(fā)人員說(shuō)我可以立即重現(xiàn)這個(gè)問(wèn)題,好了,運(yùn)維一線同事請(qǐng)放心,我們總有辦法或工具幫助我們定位到問(wèn)題點(diǎn)。
最怕的是問(wèn)題出現(xiàn)之后就不會(huì)再有了,需要追溯原因,或者說(shuō)問(wèn)題的重現(xiàn)需要準(zhǔn)備大量資源,比如特定時(shí)間段出現(xiàn),我們要考慮部署相關(guān)工具,例如tcpdump抓包。
2.是否有參考環(huán)境
幫助你進(jìn)一步快速解決問(wèn)題的是一個(gè)參照物,例如一個(gè)子系統(tǒng)有多套環(huán)境,stg1、stg2,有參照物意味著你快速定位問(wèn)題又進(jìn)了一步。
3.是否可分段排查
問(wèn)題是否可以分段(類似于網(wǎng)絡(luò)異常)
找到路徑上的懷疑項(xiàng),通過(guò)組件替換、繞行以及驗(yàn)證等方式排除。
是否有日志、資源信息。
在第三步先是縮小問(wèn)題范圍,之后就是對(duì)此范圍內(nèi)的組件進(jìn)行日志、資源信息檢查,例如中間件日志、Windows事件管理器等。
在這個(gè)過(guò)程中發(fā)現(xiàn)的信息可求助于社區(qū)、百度、谷歌尋找解決答案,如果有廠商服務(wù)支持,也可以將這些信息提交給后方。
基礎(chǔ)資源信息中關(guān)于性能的部分,如果組織內(nèi)監(jiān)控管理做得完善,那么這些異常告警會(huì)提前發(fā)出,也有一個(gè)集中、易用的可視化界面查看。
5.是否可以Trace
Trace意味著對(duì)問(wèn)題點(diǎn)的活動(dòng)數(shù)據(jù)進(jìn)行采集或者全量查看。
Trace的使用要謹(jǐn)慎,Trace會(huì)影響到組件性能,甚至導(dǎo)致其異常退出,應(yīng)當(dāng)盡量避免在生產(chǎn)環(huán)境使用。
其包括的步驟包括:
應(yīng)用服務(wù)器Debug開(kāi)關(guān)
tcpdump抓包
strace系統(tǒng)調(diào)用
systemtap探針
heapdump內(nèi)存分析
應(yīng)該避免
1.碎片干擾
作為運(yùn)維人員,一定要避免掉入到碎片干擾的陷阱中。
有時(shí)候開(kāi)發(fā)人員并不會(huì)向你描述問(wèn)題,而是拋出一段Exception stack(他也是專業(yè)人士)。
如果你不弄清楚問(wèn)題,不追溯源頭,而直接陷入到類似的Exception stack中,有時(shí)可以很快解決問(wèn)題,但有時(shí)你將走一段彎路,最終你會(huì)發(fā)現(xiàn)問(wèn)題根本原因和這個(gè)碎片一點(diǎn)關(guān)系都沒(méi)有。
正確的做法是問(wèn)題現(xiàn)象+異常信息,對(duì)于問(wèn)題的快速診斷,二者缺一不可。
2.地毯掃蕩
在上層壓力下很容易出現(xiàn)地毯掃蕩情況,對(duì)所有組件的所有配置進(jìn)行一次掃蕩檢查,例如從網(wǎng)絡(luò)設(shè)備、到物理機(jī)器、虛擬機(jī)、操作系統(tǒng)、中間件,這種情況也應(yīng)當(dāng)避免。
上層壓力,下層疏導(dǎo)
3.消極配合
地毯掃蕩和消極配合看似是矛盾的,積極配合看似就是地毯掃蕩,當(dāng)別人提出問(wèn)題,希望你檢查你所負(fù)責(zé)的相關(guān)資源時(shí),你就陷入到了地毯掃蕩之中。
總結(jié)而來(lái),我們應(yīng)該避免地毯掃蕩,而避免的方法是遵循的問(wèn)題處理方法論,將問(wèn)題范圍縮小到一定程度才開(kāi)始進(jìn)行地毯掃蕩的。而對(duì)關(guān)聯(lián)他的團(tuán)隊(duì),我們應(yīng)當(dāng)是一個(gè)積極的配合態(tài)度。
4.無(wú)所不能
越是經(jīng)驗(yàn)豐富、技術(shù)實(shí)力強(qiáng)的同事越容易陷入到這里。當(dāng)他們找到問(wèn)題點(diǎn)時(shí),會(huì)竭盡全力的用各種高難度技術(shù)手段來(lái)幫助解決,例如在網(wǎng)絡(luò)上無(wú)數(shù)次nat,在操作系統(tǒng)上hack掉問(wèn)題點(diǎn)等,而其無(wú)意中卻埋下了一個(gè)坑。
這些技術(shù)手段雖然可解決問(wèn)題,但有可能增加運(yùn)維復(fù)雜度、也有可能存在未驗(yàn)證的缺陷風(fēng)險(xiǎn)。我們并不是無(wú)所不能,無(wú)所不能應(yīng)當(dāng)控制在規(guī)范標(biāo)準(zhǔn)之內(nèi),或者放在研發(fā)驗(yàn)證之中。
我們不是無(wú)所不能的
如何一起愉快地發(fā)展
“高效運(yùn)維”公眾號(hào)(如下二維碼)值得您的關(guān)注,作為高效運(yùn)維系列微信群的唯一官方公眾號(hào),每周發(fā)表多篇干貨滿滿的原創(chuàng)好文:來(lái)自于系列群的討論精華、運(yùn)維講壇線上精彩分享及群友原創(chuàng)。“高效運(yùn)維”也是互聯(lián)網(wǎng)專欄《高效運(yùn)維最佳實(shí)踐》及運(yùn)維2.0官方公眾號(hào)。
提示:目前高效運(yùn)維新群已經(jīng)建立,歡迎加入。您可添加蕭田國(guó)個(gè)人微信號(hào)xiaotianguo8 為好友,進(jìn)行申請(qǐng),請(qǐng)備注“申請(qǐng)入群”。
重要提示:除非事先獲得授權(quán),請(qǐng)?jiān)诒竟娞?hào)發(fā)布2天后,才能轉(zhuǎn)載本文。尊重知識(shí),請(qǐng)必須全文轉(zhuǎn)載,并包括本行。
【編輯推薦】
上一篇:百度如何優(yōu)化多數(shù)據(jù)中心的帶寬成本?(1)
下一篇:Redis Cluster遷移遇到的各種運(yùn)維坑及解決方案(1)

頻道總排行
- Cisco NetFlow v9為何無(wú)人問(wèn)津?
- 技術(shù)專題:智能化運(yùn)維
- 開(kāi)源代碼管理:如何安全地使用開(kāi)源庫(kù)?
- Facebook架構(gòu)解讀
- IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 金山運(yùn)維肖力:如何將業(yè)務(wù)遷移到虛擬化環(huán)境并穩(wěn)定運(yùn)行(1)
- Apache Ignite(四):基于Ignite的分布式ID生成器
- CrazyEye,一款國(guó)人開(kāi)源的堡壘機(jī)軟件(1)
- SDN時(shí)代的網(wǎng)絡(luò)管理系統(tǒng)會(huì)走向何方
- WOT2016吳兆松:Zabbix監(jiān)控自動(dòng)化的未來(lái)如何發(fā)展
頻道本月排行
- 8你消費(fèi)我買(mǎi)單——"漏洞"天使OneRASP...
- 7有了Jenkins,為什么還需要一個(gè)獨(dú)立...
- 6IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 5新浪微博王傳鵬:微博推薦架構(gòu)的演進(jìn)(1)
- 4史上最大機(jī)器學(xué)習(xí)數(shù)據(jù)集,雅虎對(duì)外開(kāi)...
- 4雅虎開(kāi)源可以提升流操作速度的DataSketches
- 4大眾點(diǎn)評(píng)高可用性系統(tǒng)運(yùn)維經(jīng)驗(yàn)分享
- 4云運(yùn)維如何選擇部署適合自身的IDC和...
- 4開(kāi)源還是商用?十大云運(yùn)維監(jiān)控工具測(cè)...
- 4論開(kāi)發(fā)與運(yùn)維沖突的根源、表現(xiàn)形式及...