金山運(yùn)維肖力:如何將業(yè)務(wù)遷移到虛擬化環(huán)境并穩(wěn)定運(yùn)行(1)
2016-02-20 19:33:25 來源: 高招CTO訓(xùn)練營 51CTO.com 評論:0 點(diǎn)擊:
▼監(jiān)控報(bào)警
硬件故障報(bào)警,我現(xiàn)在主要是使用帶外管理卡報(bào)警,新一代服務(wù)器,帶外管理卡監(jiān)控已經(jīng)非常完善,CPU 、內(nèi)存、磁盤、網(wǎng)卡、風(fēng)扇、電源任何硬件故障都會報(bào)警,通過郵件,或者寫腳本和自己的監(jiān)控平臺結(jié)合,可以很好的解決硬件報(bào)警的問題。
CPU方面,建議每個核的CPU利用率也監(jiān)控起來,經(jīng)常會碰到一種情況,就是整體的CPU利用率不高,可能只有20-30%,但是有一兩個核已經(jīng)100%了,這時候其實(shí)已經(jīng)碰到壓力瓶頸了,但是通過整體的CPU利用率是發(fā)現(xiàn)不了的。
內(nèi)存方面,swap利用情況建議也監(jiān)控起來,作為虛擬化來說,一般不希望宿主機(jī)使用swap分區(qū),所以swap的使用要監(jiān)控起來,方便出問題的時候排查,如果有大量的swap使用,應(yīng)該設(shè)置報(bào)警,如果報(bào)警肯定是碰到性能問題了。
磁盤、網(wǎng)絡(luò)方面,虛擬化磁盤、網(wǎng)絡(luò)是兩個難點(diǎn),一般在上線之前,應(yīng)對其性能進(jìn)行壓力測試,得到極限數(shù)據(jù),然后根據(jù)極限數(shù)據(jù)設(shè)置報(bào)警閥值。
▼災(zāi)備及應(yīng)急響應(yīng)
虛擬化的災(zāi)備有兩種思路,應(yīng)用層災(zāi)備及虛擬化層災(zāi)備,一般建議在應(yīng)用層災(zāi)備。虛擬化層災(zāi)備的手段是多份的鏡像復(fù)制及快照,這個往往要消耗大量的資源,多份復(fù)雜是以犧牲幾倍的磁盤空間為代價(jià),快照是以犧牲性能為代價(jià)。
往往應(yīng)用層做了很少的改動,虛擬化層是不能感知的,只是全部備份,或者快照。
但是在應(yīng)用層災(zāi)備就簡單很多,只需要備份改動的部分,消耗的資源很少,而且速度很快。一般我們在生產(chǎn)環(huán)境的做法是,備份虛擬機(jī)的xml文件,當(dāng)故障發(fā)生時,提供一臺配置一模一樣的虛擬機(jī),如果有需要mac地址也保持一致,然后交給業(yè)務(wù)方進(jìn)行恢復(fù)。
災(zāi)備還要注意,定期演練非常重要,一方面是驗(yàn)證自己的災(zāi)備幾種,一方面也是讓參與的人能熟悉災(zāi)備過程,這樣當(dāng)發(fā)生問題的時候,就可以很快的恢復(fù)業(yè)務(wù)。
▼軟硬件選型
軟件方面,當(dāng)然是穩(wěn)定版本,但是在穩(wěn)定版本的基礎(chǔ)上,內(nèi)核版本越高越好,為什么呢?因?yàn)閮?nèi)核版本越高,對CPU的上下文切換和中斷優(yōu)化的越好,越有利于提高宿主機(jī)轉(zhuǎn)化率。Windows系統(tǒng)也一樣,Windows虛擬機(jī)建議盡量使用比較新的版本。
硬件方面越強(qiáng)悍越好,內(nèi)存越大越好,硬件越強(qiáng)悍,可以虛擬的虛擬機(jī)越多,從長時間綜合來看,肯定是節(jié)省成本的。另外,一臺宿主機(jī),使用上一段時間,我們往往發(fā)現(xiàn)內(nèi)存是瓶頸點(diǎn),所有一開始的時候,盡量內(nèi)存配置高一點(diǎn),可以避免隨后的內(nèi)存瓶頸。
▼下面分享最后一項(xiàng)內(nèi)容,就讓我對公有云選擇的一些經(jīng)驗(yàn):
用戶選擇公有云的主要因素有以下5條:
1、市場
主要是價(jià)格,其中有些公司和某些公有云就有合作,或者就是老板強(qiáng)制指定必須使用某款公有云。
2、云主機(jī)穩(wěn)定性
選擇公有云,對用戶來說,最終用的就是云主機(jī),所以云主機(jī)的穩(wěn)定性也是重要因素,不可以出現(xiàn)云主機(jī)三天兩頭崩潰、重啟,甚至數(shù)據(jù)丟失。
一般穩(wěn)定性公有云都能做到。
3、網(wǎng)絡(luò)覆蓋及網(wǎng)絡(luò)質(zhì)量
在云上業(yè)務(wù)都是基于網(wǎng)絡(luò),網(wǎng)絡(luò)質(zhì)量是一個很關(guān)鍵的因素,網(wǎng)絡(luò)質(zhì)量包含多個因素:
覆蓋范圍,覆蓋范圍越廣越好。
延時,丟包,抖動,就是延時、丟包符合要求,網(wǎng)絡(luò)抖動不能很頻繁。
這個因素往往容易被忽略。
4、大數(shù)據(jù)分析、RDS、運(yùn)維工具支持
如果公有云能提供API,提供一套方便業(yè)務(wù)部署監(jiān)控的工具,對用戶也有一定的吸引力,尤其是運(yùn)維。
5、如果能提供物理機(jī)云主機(jī)的混合云是一個殺手級的解決方案。
業(yè)務(wù)壓力非常高,就需要物理機(jī)的支持,現(xiàn)在可以看到好多公有云也開始支持物理機(jī)的租用。
將業(yè)務(wù)遷移到云上,其實(shí)和虛擬化的過程是一樣的,按照前面介紹的流程去做,可以保證比較穩(wěn)定的完成,而且虛擬化的具體技術(shù)還不用我們關(guān)心。
▼最后,總結(jié)下今天分享的內(nèi)容:
在企業(yè)內(nèi)部實(shí)施虛擬化,最重要的是口碑,如果一個項(xiàng)目接一個項(xiàng)目成功實(shí)施,就會越做越順利,相反,如果連續(xù)失敗1,2項(xiàng)目,虛擬化就推行不下去了。
我的分享結(jié)束了,歡迎大家提問,感謝!
接下來是QA環(huán)節(jié):
1、企業(yè)現(xiàn)有一大堆dell服務(wù)器,業(yè)務(wù)也比較多并雜,您建議選擇那種整合的虛擬化方案或私有云方案?
答:這個問題非常好。如果是過老的機(jī)器,不建議當(dāng)宿主機(jī)使用。具體的虛擬化方案是很復(fù)雜的問題,要根據(jù)業(yè)務(wù)、預(yù)算、應(yīng)用來選擇。
2、一個關(guān)于vpc網(wǎng)絡(luò)的問題。當(dāng)私有云有多個無法匯聚網(wǎng)段的時候,經(jīng)常出現(xiàn)vpn網(wǎng)絡(luò)不穩(wěn)定,尤其網(wǎng)絡(luò)物理鏈路中斷后,也不能自動恢復(fù)vpn鏈接,估計(jì)可能的問題有哪些?
答:可以考慮使用專線的方式,如果基于公網(wǎng)不能保證穩(wěn)定性。
為大家推薦關(guān)注:
更多內(nèi)容等你來
相關(guān)熱詞搜索:虛擬化 業(yè)務(wù) 運(yùn)維
上一篇:去哪兒網(wǎng)使用的MySQL自動化運(yùn)維工具Inception介紹
下一篇:運(yùn)維朋友們,別再問需不需要學(xué)Python了

頻道總排行
- Cisco NetFlow v9為何無人問津?
- 技術(shù)專題:智能化運(yùn)維
- 開源代碼管理:如何安全地使用開源庫?
- Facebook架構(gòu)解讀
- IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 金山運(yùn)維肖力:如何將業(yè)務(wù)遷移到虛擬化環(huán)境并穩(wěn)定運(yùn)行(1)
- Apache Ignite(四):基于Ignite的分布式ID生成器
- CrazyEye,一款國人開源的堡壘機(jī)軟件(1)
- SDN時代的網(wǎng)絡(luò)管理系統(tǒng)會走向何方
- WOT2016吳兆松:Zabbix監(jiān)控自動化的未來如何發(fā)展
頻道本月排行
- 8你消費(fèi)我買單——"漏洞"天使OneRASP...
- 7有了Jenkins,為什么還需要一個獨(dú)立...
- 6IT運(yùn)維分析與海量日志搜索需要注意什么(1)
- 5新浪微博王傳鵬:微博推薦架構(gòu)的演進(jìn)(1)
- 4史上最大機(jī)器學(xué)習(xí)數(shù)據(jù)集,雅虎對外開...
- 4雅虎開源可以提升流操作速度的DataSketches
- 4大眾點(diǎn)評高可用性系統(tǒng)運(yùn)維經(jīng)驗(yàn)分享
- 4云運(yùn)維如何選擇部署適合自身的IDC和...
- 4開源還是商用?十大云運(yùn)維監(jiān)控工具測...
- 4論開發(fā)與運(yùn)維沖突的根源、表現(xiàn)形式及...