足球资料库数据/孙祥/nba五佳球/足球直播哪个平台好 - cctv5今日现场直播

突發(fā)重大事故,我們運(yùn)維這樣進(jìn)行處理(1)
2016-02-20 19:34:04   來(lái)源: 余何 高效運(yùn)維    評(píng)論:0 點(diǎn)擊:

在我們組織內(nèi)部有兩個(gè)處理流程,對(duì)于突發(fā)重大事件,有專門(mén)召集各方聯(lián)合診斷的UIOC(ugency incident office center),緊急事故處理中心。而一般事件,我們通過(guò)事件管理通道滿足用戶需求。UIOC的目的在于快速調(diào)動(dòng)IT資源,高效協(xié)同診斷事件,在這個(gè)過(guò)程中,開(kāi)發(fā)關(guān)注應(yīng)用邏輯、運(yùn)營(yíng)關(guān)注業(yè)務(wù)影響、運(yùn)維關(guān)注底層資源、DBA關(guān)注數(shù)據(jù)庫(kù)。本文是運(yùn)維事件處理經(jīng)驗(yàn)的干貨談。

5.行為決策

UIOC強(qiáng)調(diào)的是快速恢復(fù),而不是問(wèn)題分析,亦即找到問(wèn)題點(diǎn)后可快速采取恢復(fù)方案,而不是將時(shí)間耗費(fèi)在窮根問(wèn)底。

UIOC準(zhǔn)確的說(shuō)是發(fā)現(xiàn)問(wèn)題點(diǎn)在哪里,而不是回答為什么會(huì)有這個(gè)問(wèn)題點(diǎn),對(duì)于已發(fā)現(xiàn)的問(wèn)題點(diǎn),應(yīng)當(dāng)問(wèn):

◆是否可主備切換

◆是否可功能降級(jí)

◆是否可快速擴(kuò)容

◆是否可版本回滾

在該步驟中確定快速恢復(fù)方案。

6.實(shí)施驗(yàn)證

在決策完畢后,實(shí)施方案,并做好驗(yàn)證,確保系統(tǒng)恢復(fù)正常。

\ 

事件處理

事件處理的是一些相對(duì)UIOC的緊急度要低、影響面較小的異常。在我們組織內(nèi)部,對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)以及中間件的事件團(tuán)隊(duì)進(jìn)行了整合,因此事件量大,涉及范圍廣,在這里介紹一些通用方法來(lái)幫助一線人員。

通用方法

1.是否可重現(xiàn)

問(wèn)題是否可重現(xiàn)對(duì)于快速解決問(wèn)題來(lái)說(shuō)非常重要,但開(kāi)發(fā)人員說(shuō)我可以立即重現(xiàn)這個(gè)問(wèn)題,好了,運(yùn)維一線同事請(qǐng)放心,我們總有辦法或工具幫助我們定位到問(wèn)題點(diǎn)。

最怕的是問(wèn)題出現(xiàn)之后就不會(huì)再有了,需要追溯原因,或者說(shuō)問(wèn)題的重現(xiàn)需要準(zhǔn)備大量資源,比如特定時(shí)間段出現(xiàn),我們要考慮部署相關(guān)工具,例如tcpdump抓包。

2.是否有參考環(huán)境

幫助你進(jìn)一步快速解決問(wèn)題的是一個(gè)參照物,例如一個(gè)子系統(tǒng)有多套環(huán)境,stg1、stg2,有參照物意味著你快速定位問(wèn)題又進(jìn)了一步。

3.是否可分段排查

問(wèn)題是否可以分段(類似于網(wǎng)絡(luò)異常)

找到路徑上的懷疑項(xiàng),通過(guò)組件替換、繞行以及驗(yàn)證等方式排除。

是否有日志、資源信息。

在第三步先是縮小問(wèn)題范圍,之后就是對(duì)此范圍內(nèi)的組件進(jìn)行日志、資源信息檢查,例如中間件日志、Windows事件管理器等。

在這個(gè)過(guò)程中發(fā)現(xiàn)的信息可求助于社區(qū)、百度、谷歌尋找解決答案,如果有廠商服務(wù)支持,也可以將這些信息提交給后方。

基礎(chǔ)資源信息中關(guān)于性能的部分,如果組織內(nèi)監(jiān)控管理做得完善,那么這些異常告警會(huì)提前發(fā)出,也有一個(gè)集中、易用的可視化界面查看。

5.是否可以Trace

Trace意味著對(duì)問(wèn)題點(diǎn)的活動(dòng)數(shù)據(jù)進(jìn)行采集或者全量查看。

Trace的使用要謹(jǐn)慎,Trace會(huì)影響到組件性能,甚至導(dǎo)致其異常退出,應(yīng)當(dāng)盡量避免在生產(chǎn)環(huán)境使用。

其包括的步驟包括:

應(yīng)用服務(wù)器Debug開(kāi)關(guān)

tcpdump抓包

strace系統(tǒng)調(diào)用

systemtap探針

heapdump內(nèi)存分析

\ 

應(yīng)該避免

1.碎片干擾

作為運(yùn)維人員,一定要避免掉入到碎片干擾的陷阱中。

有時(shí)候開(kāi)發(fā)人員并不會(huì)向你描述問(wèn)題,而是拋出一段Exception stack(他也是專業(yè)人士)。

如果你不弄清楚問(wèn)題,不追溯源頭,而直接陷入到類似的Exception stack中,有時(shí)可以很快解決問(wèn)題,但有時(shí)你將走一段彎路,最終你會(huì)發(fā)現(xiàn)問(wèn)題根本原因和這個(gè)碎片一點(diǎn)關(guān)系都沒(méi)有。

正確的做法是問(wèn)題現(xiàn)象+異常信息,對(duì)于問(wèn)題的快速診斷,二者缺一不可。

2.地毯掃蕩

在上層壓力下很容易出現(xiàn)地毯掃蕩情況,對(duì)所有組件的所有配置進(jìn)行一次掃蕩檢查,例如從網(wǎng)絡(luò)設(shè)備、到物理機(jī)器、虛擬機(jī)、操作系統(tǒng)、中間件,這種情況也應(yīng)當(dāng)避免。

\ 

上層壓力,下層疏導(dǎo)

3.消極配合

地毯掃蕩和消極配合看似是矛盾的,積極配合看似就是地毯掃蕩,當(dāng)別人提出問(wèn)題,希望你檢查你所負(fù)責(zé)的相關(guān)資源時(shí),你就陷入到了地毯掃蕩之中。

總結(jié)而來(lái),我們應(yīng)該避免地毯掃蕩,而避免的方法是遵循的問(wèn)題處理方法論,將問(wèn)題范圍縮小到一定程度才開(kāi)始進(jìn)行地毯掃蕩的。而對(duì)關(guān)聯(lián)他的團(tuán)隊(duì),我們應(yīng)當(dāng)是一個(gè)積極的配合態(tài)度。

4.無(wú)所不能

越是經(jīng)驗(yàn)豐富、技術(shù)實(shí)力強(qiáng)的同事越容易陷入到這里。當(dāng)他們找到問(wèn)題點(diǎn)時(shí),會(huì)竭盡全力的用各種高難度技術(shù)手段來(lái)幫助解決,例如在網(wǎng)絡(luò)上無(wú)數(shù)次nat,在操作系統(tǒng)上hack掉問(wèn)題點(diǎn)等,而其無(wú)意中卻埋下了一個(gè)坑。

這些技術(shù)手段雖然可解決問(wèn)題,但有可能增加運(yùn)維復(fù)雜度、也有可能存在未驗(yàn)證的缺陷風(fēng)險(xiǎn)。我們并不是無(wú)所不能,無(wú)所不能應(yīng)當(dāng)控制在規(guī)范標(biāo)準(zhǔn)之內(nèi),或者放在研發(fā)驗(yàn)證之中。

\ 

我們不是無(wú)所不能的

如何一起愉快地發(fā)展

“高效運(yùn)維”公眾號(hào)(如下二維碼)值得您的關(guān)注,作為高效運(yùn)維系列微信群的唯一官方公眾號(hào),每周發(fā)表多篇干貨滿滿的原創(chuàng)好文:來(lái)自于系列群的討論精華、運(yùn)維講壇線上精彩分享及群友原創(chuàng)。“高效運(yùn)維”也是互聯(lián)網(wǎng)專欄《高效運(yùn)維最佳實(shí)踐》及運(yùn)維2.0官方公眾號(hào)。

\

提示:目前高效運(yùn)維新群已經(jīng)建立,歡迎加入。您可添加蕭田國(guó)個(gè)人微信號(hào)xiaotianguo8 為好友,進(jìn)行申請(qǐng),請(qǐng)備注“申請(qǐng)入群”。

重要提示:除非事先獲得授權(quán),請(qǐng)?jiān)诒竟娞?hào)發(fā)布2天后,才能轉(zhuǎn)載本文。尊重知識(shí),請(qǐng)必須全文轉(zhuǎn)載,并包括本行。

【編輯推薦】

  1. 運(yùn)維自動(dòng)化重點(diǎn)解讀之監(jiān)控系統(tǒng)(三):架構(gòu)
  2. 簡(jiǎn)單介紹自動(dòng)化運(yùn)維工具clip
  3. 我從【優(yōu)維計(jì)劃】訪談中看到的運(yùn)維現(xiàn)狀
  4. 運(yùn)維人,你應(yīng)該了解的三張武功心法圖
  5. 云運(yùn)維如何選擇部署適合自身的IDC和網(wǎng)絡(luò)
【責(zé)任編輯:武曉燕 TEL:(010)68476606】


相關(guān)熱詞搜索:運(yùn)維 UIOC 事件

上一篇:百度如何優(yōu)化多數(shù)據(jù)中心的帶寬成本?(1)
下一篇:Redis Cluster遷移遇到的各種運(yùn)維坑及解決方案(1)

分享到: 收藏