IT運(yùn)維分析與海量日志搜索需要注意什么(1)
2016-02-20 19:34:15 來源: 陳軍 互聯(lián)網(wǎng)運(yùn)維雜談 評(píng)論:0 點(diǎn)擊:
日志易創(chuàng)始人兼CEO陳軍老師12月16日在【DBA+社群】中間件用戶組進(jìn)行了一次主題為“IT運(yùn)維分析與海量日志搜索 ”的線上分享。
目錄:
◆IT 運(yùn)維分析(IT Operation Analytics)
◆日志的應(yīng)用場(chǎng)景
◆過去及現(xiàn)在的做法
◆日志搜索引擎
◆日志易產(chǎn)品介紹
一、IT 運(yùn)維分析
1、IT 運(yùn)維分析
1.1 從 IT Operation Management (ITOM) 到 IT Operation Analytics (ITOA)
IT運(yùn)維分析,即IT Operation Analytics,簡(jiǎn)稱ITOA,是個(gè)新名詞。以前IT運(yùn)維是ITOM,IT Operation Management ,IT 運(yùn)維管理。這兩年大數(shù)據(jù)技術(shù)開始普及,把大數(shù)據(jù)技術(shù)應(yīng)用于IT運(yùn)維,通過數(shù)據(jù)分析提升IT運(yùn)維效率與水平,就是ITOA。
1.2 大數(shù)據(jù)技術(shù)應(yīng)用于IT運(yùn)維,通過數(shù)據(jù)分析提升IT運(yùn)維
ITOA主要用于:
◆可用性監(jiān)控
◆應(yīng)用性能監(jiān)控
◆故障根源分析
◆安全審計(jì)
1.3 Gartner估計(jì),到2017年15%的大企業(yè)會(huì)積極使用ITOA;而在2014年這一數(shù)字只有5%。
2、ITOA的數(shù)據(jù)來源有以下四個(gè)方面:
1.1 機(jī)器數(shù)據(jù)(Machine Data):是IT系統(tǒng)自己產(chǎn)生的數(shù)據(jù),包括客戶端、服務(wù)器、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、應(yīng)用程序、傳感器產(chǎn)生的日志,及 SNMP、WMI 等時(shí)間序列事件數(shù)據(jù),這些數(shù)據(jù)都帶有時(shí)間戳。機(jī)器數(shù)據(jù)無所不在,反映了IT系統(tǒng)內(nèi)在的真實(shí)狀況,但不同系統(tǒng)產(chǎn)生的機(jī)器數(shù)據(jù)的質(zhì)量、可用性、完整性可能差別較大。
1.2 通信數(shù)據(jù)(Wire Data):是系統(tǒng)之間2~7層網(wǎng)絡(luò)通信協(xié)議的數(shù)據(jù),可通過網(wǎng)絡(luò)端口鏡像流量,進(jìn)行深度包檢測(cè) DPI(Deep Packet Inspection)、包頭取樣 Netflow 等技術(shù)分析。一個(gè)10Gbps端口一天產(chǎn)生的數(shù)據(jù)可達(dá)100TB,包含的信息非常多,但一些性能、安全、業(yè)務(wù)分析的數(shù)據(jù)未必通過網(wǎng)絡(luò)傳輸,一些事件的發(fā)生也未被觸發(fā)網(wǎng)絡(luò)通信,從而無法獲得。
1.3 代理數(shù)據(jù)(Agent Data):是在 .NET、PHP、Java 字節(jié)碼里插入代理程序,從字節(jié)碼里統(tǒng)計(jì)函數(shù)調(diào)用、堆棧使用等信息,從而進(jìn)行代碼級(jí)別的監(jiān)控。但要求改變代碼并且會(huì)增加程序執(zhí)行的開銷,降低性能,而且修改了用戶的程序也會(huì)帶來安全和可靠性的風(fēng)險(xiǎn)。
1.4 探針數(shù)據(jù)(Probe Data),又叫合成數(shù)據(jù)(Synthetic Data):是模擬用戶請(qǐng)求,對(duì)系統(tǒng)進(jìn)行檢測(cè)獲得的數(shù)據(jù),如 ICMP ping、HTTP GET等,能夠從不同地點(diǎn)模擬客戶端發(fā)起,進(jìn)行包括網(wǎng)絡(luò)和服務(wù)器的端到端全路徑檢測(cè),及時(shí)發(fā)現(xiàn)問題。但這種檢測(cè)并不能發(fā)現(xiàn)系統(tǒng)為什么性能下降或者出錯(cuò),而且這種檢測(cè)是基于取樣,并不是真實(shí)用戶度量(Real User Measurement)。
擁有大量客戶端的公司,如BAT,會(huì)直接在客戶端度量系統(tǒng)性能,做Real User Measurement,通常不需要模擬用戶檢測(cè)。
3、ITOA 四種數(shù)據(jù)來源使用占比
美國(guó)某ITOA公司的用戶調(diào)研發(fā)現(xiàn),使用這四種不同數(shù)據(jù)來源的比例為:Machine Data 86%, Wire Data 93%, Agent Data 47%, Probe Data 72%。這四種數(shù)據(jù)來源各有利弊,結(jié)合在一起使用,效果最好。
4、日志:時(shí)間序列機(jī)器數(shù)據(jù)
通常結(jié)合日志與網(wǎng)絡(luò)抓包,能夠覆蓋大部分IT運(yùn)維分析的需求。日志因?yàn)閹в袝r(shí)間戳,并由機(jī)器產(chǎn)生,也被稱為時(shí)間序列機(jī)器數(shù)據(jù)。
它包含了IT系統(tǒng)信息、用戶信息、業(yè)務(wù)信息。
日志反映的是事實(shí)數(shù)據(jù):LinkedIn(領(lǐng)英)是非常著名的職業(yè)社交應(yīng)用,非常重視用戶數(shù)據(jù)分析,也非常重視日志。
它的一個(gè)工程師寫了篇很有名的文章:
◆“The Log: What every software engineer should know about real-time data's unifying abstraction”, Jay Kreps, LinkedIn engineer
附:中文翻譯:深度解析LinkedIn大數(shù)據(jù)平臺(tái)
LinkedIn的用戶數(shù)據(jù)挖掘基于日志,公司內(nèi)部有專門的部門處理所有的日志,各模塊的日志都被采集,傳送到這個(gè)部門。
著名的開源消息隊(duì)列軟件Kafka就是LinkedIn開發(fā),用來傳輸日志的。
以Apache日志為例,包含了非常豐富的信息:
- 180.150.189.243 - - [15/Apr/2015:00:27:19 +0800] “POST /report HTTP/1.1” 200 21 “https://rizhiyi.com/search/” “Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko/20100101 Firefox/37.0” “10.10.33.174” 0.005 0.001
里面包含的字段:
- Client IP: 180.150.189.243
- Timestamp: 15/Apr/2015:00:27:19 +0800
- Method: POST
- URI: /report
- Version: HTTP/1.1
- Status: 200
- Bytes: 21
- Referrer: https://rizhiyi.com/search/
- User Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko/20100101 Firefox/37.0
- X-Forward: 10.10.33.174
- Request_time: 0.005
- Upstream_request_time:0.001
可見,日志是非結(jié)構(gòu)化文本數(shù)據(jù),如果分析,最好把它轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
上面就是抽取了各個(gè)字段,把日志結(jié)構(gòu)化了,結(jié)構(gòu)化之后,統(tǒng)計(jì)、分析就很方便了。
二、日志的應(yīng)用場(chǎng)景
1、運(yùn)維監(jiān)控
包括可用性監(jiān)控和應(yīng)用性能監(jiān)控 (APM)。
2、安全審計(jì)
包括安全信息事件管理 (SIEM)、合規(guī)審計(jì)、發(fā)現(xiàn)高級(jí)持續(xù)威脅 (APT)。
3、用戶及業(yè)務(wù)統(tǒng)計(jì)分析
上一篇:優(yōu)秀的運(yùn)維架構(gòu)師應(yīng)該具備哪些能力?(1)
下一篇:49款頂級(jí)開源辦公工具推薦(1)

頻道總排行
- Cisco NetFlow v9為何無人問津?
- 技術(shù)專題:智能化運(yùn)維
- 開源代碼管理:如何安全地使用開源庫(kù)?
- Facebook架構(gòu)解讀
- IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 金山運(yùn)維肖力:如何將業(yè)務(wù)遷移到虛擬化環(huán)境并穩(wěn)定運(yùn)行(1)
- Apache Ignite(四):基于Ignite的分布式ID生成器
- CrazyEye,一款國(guó)人開源的堡壘機(jī)軟件(1)
- SDN時(shí)代的網(wǎng)絡(luò)管理系統(tǒng)會(huì)走向何方
- WOT2016吳兆松:Zabbix監(jiān)控自動(dòng)化的未來如何發(fā)展
頻道本月排行
- 8你消費(fèi)我買單——"漏洞"天使OneRASP...
- 7有了Jenkins,為什么還需要一個(gè)獨(dú)立...
- 6IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 5新浪微博王傳鵬:微博推薦架構(gòu)的演進(jìn)(1)
- 4史上最大機(jī)器學(xué)習(xí)數(shù)據(jù)集,雅虎對(duì)外開...
- 4雅虎開源可以提升流操作速度的DataSketches
- 4大眾點(diǎn)評(píng)高可用性系統(tǒng)運(yùn)維經(jīng)驗(yàn)分享
- 4云運(yùn)維如何選擇部署適合自身的IDC和...
- 4開源還是商用?十大云運(yùn)維監(jiān)控工具測(cè)...
- 4論開發(fā)與運(yùn)維沖突的根源、表現(xiàn)形式及...