DBA線上操作要知道的那些事
2016-09-14 16:21:00 來(lái)源:來(lái)源:運(yùn)維之美 評(píng)論:0 點(diǎn)擊:
根據(jù)莫非定律1:「凡是可能出錯(cuò)的事必定會(huì)出錯(cuò),任何一個(gè)事件,只要具有大于零的機(jī)率,就不能夠確定它不會(huì)發(fā)生?!惯@句看似箴言的話,想必每個(gè)運(yùn)維從業(yè)人員感觸非常深刻。本文從 DBA 線上操作的角度,談?wù)勛约旱目捶ā?/p>
工作日,DBA 會(huì)處理大批工單;非工作日,DBA 在時(shí)刻準(zhǔn)備著救急。亦即,DBA 每時(shí)每刻都有線上操作的需要。那么問(wèn)題來(lái)了,個(gè)人的狀態(tài)是不定的,包括心理狀態(tài)、身體狀態(tài)。時(shí)刻保證臨危不亂,這是 DBA 重要的素質(zhì)之一。線上故障,分秒必爭(zhēng),不及時(shí)的處理、不善的操作都很有可能給公司帶來(lái)不同程度的損失。線上操作需要求穩(wěn),本文給出筆者的點(diǎn)滴思考。

© Pierre Puvis de Chavannes/The Poor Fisherman, 1881/Wikipedia2
第一,處理工單、凌晨維護(hù)、處理緊急故障之前,梳理流程,準(zhǔn)備必要的資料。一個(gè)優(yōu)秀的 DBA,不是求速度,不是求效率,而是求穩(wěn)。出錯(cuò)的概率低,你給別人的感覺(jué)就會(huì)比較靠譜。有經(jīng)驗(yàn)的 DBA,線上操作就是復(fù)制粘貼,寧愿相信 0 和 1,也不愿相信自己和別人。每次處理工單、凌晨維護(hù),筆者都會(huì)養(yǎng)成一個(gè)習(xí)慣,梳理流程,準(zhǔn)備線上服務(wù)器 IP 列表、需要的腳本、有可能使用到的命令、相關(guān)的文檔等等。這樣的好處是,心里有譜,不至于慌亂。即使遇到突發(fā)狀況,也會(huì)相對(duì)從容。當(dāng)然,緊急故障沒(méi)有這么多時(shí)間給你準(zhǔn)備,但至少也要準(zhǔn)備常用的命令。這里有個(gè)小建議,使用 Evernote 保存常用的命令,當(dāng)然,涉及公司敏感信息的,不能留。臨場(chǎng)發(fā)揮,盡可能地避免手動(dòng)輸入,因?yàn)楦叨染o張的狀態(tài)下,輸入錯(cuò)誤的概率比日常要高。于 DBA 而言,輸入錯(cuò)誤,帶來(lái)的災(zāi)難將是毀滅性的。已經(jīng)有很多類似的案例,在此不做展開(kāi)。
第二,處理故障之前分析最重要。通常某個(gè)故障是不是單點(diǎn)的,是一個(gè)面,是一個(gè)鏈條。線上故障,直接受影響的就是用戶,究其原因,用戶層、接入層、邏輯層和數(shù)據(jù)層每一層都有可能有問(wèn)題。處理故障之前,不是無(wú)謂的試錯(cuò),一次不行,下次依然如故的概率相當(dāng)高,然后時(shí)間就這樣不知不覺(jué)地浪費(fèi)了。此時(shí)應(yīng)該冷靜下來(lái),思維不能單獨(dú)盯在數(shù)據(jù)層,從整個(gè)技術(shù)鏈條考慮,這樣獲得的信息才是最全方位的。那么問(wèn)題來(lái)了,互聯(lián)網(wǎng)行業(yè)工作細(xì)分,DBA 很大可能沒(méi)有操作數(shù)據(jù)層之外的權(quán)限,怎樣做到信息相對(duì)完善,接下來(lái)就是下一個(gè)話題。
第三,學(xué)會(huì)溝通,盡可能地達(dá)到信息對(duì)稱。第二點(diǎn)提到,DBA 更多關(guān)注的是數(shù)據(jù)層,達(dá)到整個(gè)技術(shù)鏈條信息的流通是相當(dāng)重要的。這一點(diǎn)其實(shí)不是技術(shù)問(wèn)題,而是一個(gè)人的軟實(shí)力。關(guān)于提問(wèn)的智慧3,可以參考之前筆者的文章。我們都知道,提好問(wèn)題比答案本身更重要。DBA 在處理故障時(shí),跟監(jiān)控、研發(fā)、測(cè)試、產(chǎn)品、運(yùn)維等都有可能打交道。監(jiān)控會(huì)反饋受影響的范圍、延時(shí)情況等等,這屬于用戶層;研發(fā)、測(cè)試、產(chǎn)品會(huì)反饋業(yè)務(wù)故障、程序日志等,這屬于用戶層和邏輯層;運(yùn)維會(huì)反饋網(wǎng)絡(luò)情況、流量狀況、Web 服務(wù)器異常等等,這屬于接入層。最后 DBA 會(huì)關(guān)注數(shù)據(jù)層,包括持久層和緩存層,然后結(jié)合不同鏈條的信息,綜合分析,再進(jìn)行相應(yīng)的操作。線上操作,我們不能容忍低效甚至無(wú)效的溝通。
第四,任何操作三思而后行。DBA 應(yīng)該把「?jìng)浞葜赜谝磺?」銘記于心,修改任何配置文件之前先備份,慎用甚至不用 rm。對(duì)于有 DROP 和 TRUNCATE 的工單,再三審核和確認(rèn),避免無(wú)效操作。如果確實(shí)存在此類需求,應(yīng)該首先確認(rèn)是否有備份,備份是否可用。DBA 應(yīng)該對(duì)高危操作有明確的認(rèn)識(shí),除此之外,所有的恢復(fù)操作也需要了記于心,防患于未然。
第五,事后 Review、反思、總結(jié),形成知識(shí)庫(kù)。故障是不可控的,可能是人為,可能是程序有 Bug,可能是網(wǎng)絡(luò)故障,總之發(fā)生故障的原因千奇百怪。但故障事后的 Review、反思和總結(jié)我們可以控制。針對(duì)某個(gè)特定的故障,反思處理的流程是否有優(yōu)化的地方,反思基礎(chǔ)設(shè)施是否還有不完善的地方,反思團(tuán)隊(duì)出現(xiàn)的問(wèn)題,反思和其他部門(mén)的合作是否有問(wèn)題等等,然后形成會(huì)議記錄、故障報(bào)告、故障總結(jié),形成知識(shí)庫(kù),定期再次 Review,避免下次出現(xiàn)類似的問(wèn)題。再者,還可以給新入職的員工參考,從真實(shí)案例中學(xué)習(xí),這樣進(jìn)步會(huì)更快。
做好一個(gè)優(yōu)秀的 DBA,技術(shù)是一方面,更重要的是個(gè)人素質(zhì)。比如,你需要有良好的習(xí)慣、需要有優(yōu)秀的心理素質(zhì)、需要有責(zé)任心和道德、需要有良好的溝通能力……這些軟實(shí)力是基石,在此基礎(chǔ)上,拓展技術(shù)的廣度和深度,這樣才會(huì)有更良好的發(fā)展。
借此文章,嘮嗑下最近的想法。筆者經(jīng)常反思為什么會(huì)這樣堅(jiān)持更新博客,最近有了比較理想的答案。第一是督促自己思考,第二是為別人提供價(jià)值。先說(shuō)第一點(diǎn),堅(jiān)持更新博客,就是在提醒自己不斷思考,這樣就會(huì)比別人獲得更多技術(shù)之外的能力。然而,這些能力,是在枯燥的工作之作學(xué)不來(lái)的。世間的道理都很簡(jiǎn)單,大家也懂,然而真正去行動(dòng)并且持之以恒的少之又少。你看了一千篇文章,讀了一百本書(shū),不去行動(dòng)都是枉然。然后說(shuō)說(shuō)第二點(diǎn),博客很重要的一點(diǎn)就是給讀者提供價(jià)值。讀者覺(jué)得你的文章能給他帶來(lái)啟發(fā),這就是正向輸出;讀者評(píng)論你的文章、和你發(fā)郵件交流、加微信和你聊天,這就是正向反饋。你給讀者提供了價(jià)值,說(shuō)不定讀者哪天就會(huì)給你帶來(lái)意想不到的驚喜。一個(gè)長(zhǎng)期保持高質(zhì)量更新的博客,于己于他,個(gè)人認(rèn)為都是瑰寶。即使現(xiàn)在沒(méi)有兌現(xiàn),將來(lái)的某個(gè)時(shí)刻會(huì)。
回到這篇文章本身,筆者時(shí)刻都在強(qiáng)調(diào)軟實(shí)力。軟實(shí)力靠的是長(zhǎng)期的積累,需要自控力不斷提高。歸根結(jié)底,任何管理本質(zhì)上都是對(duì)自我的管理。
【編輯推薦】
上一篇:大型網(wǎng)站運(yùn)維工程師的職責(zé)和前景
下一篇:當(dāng)服務(wù)QPS增高時(shí),我們做什么

頻道總排行
- Cisco NetFlow v9為何無(wú)人問(wèn)津?
- 技術(shù)專題:智能化運(yùn)維
- 開(kāi)源代碼管理:如何安全地使用開(kāi)源庫(kù)?
- Facebook架構(gòu)解讀
- IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 金山運(yùn)維肖力:如何將業(yè)務(wù)遷移到虛擬化環(huán)境并穩(wěn)定運(yùn)行(1)
- Apache Ignite(四):基于Ignite的分布式ID生成器
- SDN時(shí)代的網(wǎng)絡(luò)管理系統(tǒng)會(huì)走向何方
- CrazyEye,一款國(guó)人開(kāi)源的堡壘機(jī)軟件(1)
- WOT2016吳兆松:Zabbix監(jiān)控自動(dòng)化的未來(lái)如何發(fā)展
頻道本月排行
- 8你消費(fèi)我買單——"漏洞"天使OneRASP...
- 7有了Jenkins,為什么還需要一個(gè)獨(dú)立...
- 6IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 5新浪微博王傳鵬:微博推薦架構(gòu)的演進(jìn)(1)
- 4云運(yùn)維如何選擇部署適合自身的IDC和...
- 4雅虎開(kāi)源可以提升流操作速度的DataSketches
- 4大眾點(diǎn)評(píng)高可用性系統(tǒng)運(yùn)維經(jīng)驗(yàn)分享
- 4開(kāi)源還是商用?十大云運(yùn)維監(jiān)控工具測(cè)...
- 4論開(kāi)發(fā)與運(yùn)維沖突的根源、表現(xiàn)形式及...
- 4史上最大機(jī)器學(xué)習(xí)數(shù)據(jù)集,雅虎對(duì)外開(kāi)...