足球资料库数据/孙祥/nba五佳球/足球直播哪个平台好 - cctv5今日现场直播

首頁 > 知識庫 > 正文

百度多維度數據監控采集和聚合計算的運維實踐分享(1)
2016-02-20 19:33:47   來源: 顏志杰 StuQ    評論:0 點擊:

我是百度運維部平臺研發工程師顏志杰,畢業后一直在百度做運維平臺開發,先后折騰過任務調度(CT)、名字服務(BNS)、監控(采集&計算);今天很高興和大家一起分享下自己做“監控”過程中的一些感想和教訓。

\

大家好,我是百度運維部平臺研發工程師顏志杰,畢業后一直在百度做運維平臺開發,先后折騰過任務調度(CT)、名字服務(BNS)、監控(采集&計算);今天很高興和大家一起分享下自己做“監控”過程中的一些感想和教訓。

現在開始本次分享,本次分享的主題是《多維度數據監控采集&計算》,提綱如下,分為3個部分:

1.監控目標和挑戰

2.多維度數據監控

2.1.采集的設計和挑戰

2.2.聚合計算的設計和挑戰

2.3.高可用性保障設計

3.總結&展望

首先進入第一部分 :監控目標和挑戰,先拋出問題,裝裝門面,拔高下分享的檔次(個人理解,歡迎challenge)。

\

監控期望做到:快速發現問題,定位問題(運維層面),解決問題,甚至要先于問題發生之前,預測/防患未然,形成處理閉環,減少人工決策干預。

先解釋一下“定位問題(優先運維層面)”,意思是站在運維角度“定義故障”,不需要定位到代碼級別的異常,只需定位到哪種運維操作可以恢復故障即可,比如確定是變更引起的,則上線回滾,機房故障則切換流量等…

不是說監控不要定位到代碼級別的問題,事情有輕重緩急,止損是第一位,達到這個目標后,我們可以再往深去做。

再解釋下“預測/防患未然”,很多人第一反應是大數據挖掘,其實有不少點可以做,比如將變更分級發布和監控聯動起來,分級發布后,關鍵指標按照“分級”的維度來展示。(記住“分級”維度,先賣個關子:)

“監控目標”這個話題太大,挑戰多多。收斂一下,談一下我們在做監控時,遇到的一些問題,挑兩個大頭,相信其他在大公司做監控的同學也有同感:

1.監控指標多,報警多

2.報警多而且有關聯,如何從很多異常中找出“根因”

今天先拋出來兩個頭疼的問題,下面開始進入正題“多維度數據監控”,大家可以帶著這兩個問題聽,看方案是否可以“緩解”這兩個問題。

進入正題:

\

先看第一個問題:監控數據多。監控數據符合28定律,“關鍵”和“次要”指標需要區別對待,不能以處理了多大數據量引以為傲,需要按重要性分級處理,將資源傾斜到重要數據上分析和處理。

相關熱詞搜索:數據監控 運維 百度

上一篇:七款值得推薦的開源密碼管理工具(1)
下一篇:iTerm,讓你的Mac OS命令行也能豐富多彩(1)

分享到: 收藏