數據運維對于運維具有哪些重要意義
2016-02-20 19:33:53 來源: 一葦可航 一葦可航的運維故事 評論:0 點擊:
大數據模式已經到來!個體既是數據的創造者也是數據的使用者,醫療,科技,教育領域都早已參與其中。并創造無數的好產品和價值。核心數據搜索和推薦、電商定點廣告和推送,基因健康預測等都在不斷重新定義互聯網的生活。人們的生活并因此而改變。大數據的確對社會進步會產生深遠影響和意義。簡單來說就是數據可以產生價值!
每個人都在工作中對結果負責并為此帶來效益和價值,同時有些人沖在一線在做體系之外的綠葉。他們的工作不直接產生效益但是他們可以足夠影響效益結果,這就是苦逼而沉默的運維。默默無聞的運維一代是否可以真正爆發,來證明自己的存在意義和價值。讓自己的未來工作充滿驅動力和想象力,這就需要運維拯救自己。特別是在互聯網沖擊時代下的運維更要如此,那么在運維時代的你和我,如何能夠了解數據價值呢?
不要讓老板在有問題的時候才感覺到你的存在!這是多么痛的領悟啊!想到這里就眼鏡濕潤的想起了自己的夢想,我可不是想這樣工作下去。的確需要改變,一定要打破“出了問題是你的,不出問題你應該做的” 這樣的狗屁理念。那么我們就要提出數據運維的概念。
一、工程數據
描述出你所運維的系統或者工程項目的所有價值數據,體現如下:
1.工單數量
這里應該包括你的每天完成工單的質量和時間。而且要有平臺可視化的體現。在完成工單的同時對業務的穩定性和目的要加以描述讓你的工作變得更有意義。
2.SLA可用性
在老板眼里只關心兩件事:一是他賺了多少錢,二是他花了多少錢。 SLA影響產品和業務性能也就間接影響老板的財路。所以這里要完美的體現出來你在幫老板賺錢了。我希望的是運維的同行真的每周的報表里要體現出來并為此運維所做的努力和付出。哪怕只有三個9這也是我們努力過的。
3.基礎資源
我們運維的服務器數量和網絡設備數量,IDC數量。之間的數據交互延時多少。我們每天的業務調用數量是多少? 調用的RTT如何? 我們報廢的設備多少等等這些都要體現出來。反正這些數據即使你不主動表達一般的老板也不會臺關心。除非你發生了故障...
4.故障率
沒有故障是大家的集體愿望。但是所有的事件都是有規律和原因的。可能是我們的不經意的一個升級zlib庫就會導致服務不可用。所以,我還是愿意在平臺化上展示出這些數據。如果有進步讓老板看到實際變化,如果沒有對自己的工作也是一個重要的警醒。
5.報警統計
如果要消滅報警,我們就可以高枕無憂了。也有人說消滅報警自己TM 不就失業了嗎? 但是老天會告訴你失業除非是你rm了服務器上的資源,否則老天會保佑你的,我們通過報警數據的統計根據內容做一些數據挖掘和提前預警。同時也要對報警內容進行問題分析和指引。如果老板欣喜的看到了你把短信報警的條數已經控制在3%以內,那么老板沒有理由不給你漲工資的。
二、業務數據
業務運維系統的價值數據。如下:
1.業務dashboard
說白一點就是類似業務層的監控數據。我們可以做一些數據匯總然后平臺化展示出來。比如業務的可用性訪問狀態,訪問量的數據狀態,DNS解析服務的狀態,模擬產品化的監控狀態等。可以讓這些數據活的更有價值從而也更直觀體現出業務的穩定狀態。
2.trace調用鏈
這一點重要性毋庸置疑,從Google的dapper到twitter的zippikn再到趙海平跳槽到阿里(其實是說在做這樣的鷹眼系統)。可以清晰看到業務調用之間的耗時,模塊之間的依賴map可以非常快速的幫助運維定位問題。從而提高業務穩定狀態和自身效率。
3.業務拓撲切換
有很多的重要業務都不是單點在一個IDC中心,往往多活在多個地方為了可控單點風險。所以在這樣繁雜的業務體系當中,經常會有業務的穩定性切換。
比如模塊降級次數,比如切換頻率,切換之后的穩定時間,切換之后的訪問質量等這些都需要數據描繪出來。
4.業務指標
每個運維要明確自己的服務的業務指標。如果是做Web要看訪問量,如果是做電商要看訂單率等。而且要實時展示出來自己的業務指標。我們可以根據歷史數據和經驗進行預測和總結。比如我們要擴容帶寬,我們要購買服務器這些數據都是我們的依據。
5.業務基準數據
比如運維鎖服務器的平臺的業務最大QPS,購買新服務器硬件性能的測試基準數據。在業務模式下的資源狀態數據都需要記錄和展現,特別是對我們在處理問題的時候能提供強大的依據。
6.業務日志挖掘
原來我們就習慣使用syslogd做統一化展現。現在的大數據時代激情四射早已顛覆了傳統的技術。ELK就有一統江湖的意思。同時也有很多大公司開始自修復系統,其實深度來源就是做數據挖掘。根據我們所有收集到的日志做挖掘,展現。最后做調度分配,自修復,子降級。這也是我個人非常期待的事情。
三、數據如何有效展示
1.平臺可視化
運維的本質-可視化,我覺得可視化是描述數據最好的方式方法。我們根據數據做歸檔,做分析,做rrd,最后分析展示這本身也是想表達我們的本意。
2.業務耦合關聯
這個就是說如何讓老板,讓RD能夠容納我們的平臺。本來我們是說要展現自己但是這里就涉及到邊界問題。因為有些數據需要和業務交互,有些數據需要和服務器交互。這就需要和業務解耦過程是否無污染的影響業務,是否可以有良好的API實現都是非常的關鍵。
3.溝通先行
我們在做這些事情的時候要給予老板希望與細心,闡述我們的目的和價值。因為我們在完善一個看似意義不大的平臺。所以這里一定要多接觸業務,運營闡述我們自己的想法給予我們足夠的時間來作這些事情。
4.技術方向
其實這里做平臺化的體系,語言工具太多了。我覺得還是那句話擁抱開源,避免重復造輪子! 因為當我們爭取到的時間,我們就已經有KPI在身了。如何能用好身邊的資源和把控時間非常重要。因為一旦項目失敗所有的印象都會要在從0開始。
數據對于我們的工作和生活都足夠重要。我們要尊重科技學會善用數據來為我們的工作支撐方向,體現價值!運維的工作特性也是特別需要數據來體現。足可以提高我們的存在價值和對工作的長遠影響。希望這些能夠對運維的兄弟有所幫助!
【編輯推薦】
