發(fā)布日期:2023-10-08 15:35:32
01. 場(chǎng)景簡(jiǎn)述
采用WeOps的監(jiān)控能力,結(jié)合Exchange專(zhuān)家定制的專(zhuān)用化監(jiān)控方案,實(shí)時(shí)監(jiān)測(cè)服務(wù)器磁盤(pán)、郵件系統(tǒng)關(guān)鍵指標(biāo),異常告警,提醒管理員及時(shí)處理(支持自動(dòng)化處理),配置后(近3個(gè)月),故障頻率從1~2月一次,降到“零”故障。
02. 故事背景
1)郵件系統(tǒng)運(yùn)維要求
周大福Exchange郵件系統(tǒng)維系著全集團(tuán)(包括順德、武漢、香港和深圳等四大區(qū))的協(xié)同辦公,如分店與分店、分店與后勤的公告、文件、通知等,其重要性不言而喻,集團(tuán)要求郵件系統(tǒng)可用性不低于99.99%,基本上不允許出現(xiàn)故障。
2)故障現(xiàn)象
今年上半年曾先后發(fā)生幾起郵件投遞失敗的重大事故,受影響的用戶多達(dá)上千人,IT運(yùn)維團(tuán)隊(duì)為此也受到嚴(yán)厲的責(zé)罰。
3)故障原因
最終定位到根因?yàn)椴糠諩xchange郵件系統(tǒng)服務(wù)器由于郵件量的增加,導(dǎo)致磁盤(pán)空間不足,觸發(fā)了系統(tǒng)的反壓機(jī)制,導(dǎo)致部分郵件無(wú)法正常投遞,一直停留在隊(duì)列中。
4)故障困擾
周大福郵件系統(tǒng)服務(wù)器數(shù)量多達(dá)40+臺(tái),且后端服務(wù)器的磁盤(pán)數(shù)較多(8-10個(gè)盤(pán)),盡管每天都在進(jìn)行例行檢查,發(fā)現(xiàn)磁盤(pán)不足及時(shí)擴(kuò)充,但是擴(kuò)多了浪費(fèi),擴(kuò)少了很快又滿,總是容易出現(xiàn)疏漏。令運(yùn)維人員頭疼的是,公司門(mén)店常有促銷(xiāo)活動(dòng),需要大量帶附件的郵件群發(fā),這容易導(dǎo)致服務(wù)器的磁盤(pán)空間在前后兩次巡檢之間劇增達(dá)上百GB,造成故障,因此,事故接二連三的發(fā)生……
03. WeOps應(yīng)對(duì)及效果
1)實(shí)時(shí)監(jiān)測(cè)Exchange郵件系統(tǒng)所有數(shù)據(jù)盤(pán)的磁盤(pán)空間,提前預(yù)警
① 對(duì)Exchange郵件系統(tǒng)40+臺(tái)服務(wù)器批量安裝代理,實(shí)時(shí)監(jiān)測(cè)磁盤(pán)空間的變化情況;
② 新建Exchange郵件系統(tǒng)儀表盤(pán),通過(guò)折線圖方式展示所有數(shù)據(jù)盤(pán)的磁盤(pán)空間使用情況;
③ 基于本次故障的經(jīng)驗(yàn),對(duì)所有數(shù)據(jù)盤(pán)的“磁盤(pán)空間使用率” 設(shè)定嚴(yán)格的監(jiān)控策略,并通過(guò)短信、郵件、微信等途徑通知到相關(guān)人員處理。
當(dāng)磁盤(pán)空間超過(guò)80%時(shí),觸發(fā)“預(yù)警”級(jí)別告警;
當(dāng)磁盤(pán)空間超過(guò)85%時(shí),觸發(fā)“致命”級(jí)別告警;
④ 除對(duì)郵件系統(tǒng)的磁盤(pán)使用率、CPU、內(nèi)存等基礎(chǔ)指標(biāo)監(jiān)測(cè)外,還對(duì)郵件隊(duì)列、重試投遞隊(duì)列、客戶端連接數(shù)等關(guān)鍵應(yīng)用指標(biāo)進(jìn)行檢測(cè),及時(shí)感知異常,保障郵件系統(tǒng)穩(wěn)健運(yùn)行。
2)WeOps實(shí)現(xiàn)效果
① WeOps監(jiān)控告警配置完成后,未再出現(xiàn)郵件投遞失敗的事故
04. 場(chǎng)景適用性
該郵件系統(tǒng)監(jiān)控的場(chǎng)景,適用于絕大部分企業(yè)的運(yùn)維場(chǎng)景。WeOps監(jiān)控,幫助企業(yè)早于業(yè)務(wù)發(fā)現(xiàn)問(wèn)題,提升核心系統(tǒng)的可用性。
CMDB治理:CMDB數(shù)據(jù)消費(fèi)與應(yīng)用指南
查看詳細(xì)
1分鐘解鎖開(kāi)箱即用價(jià)值流:研發(fā)效率飆升實(shí)戰(zhàn)指南
查看詳細(xì)
CCI持續(xù)集成平臺(tái):高效集成K8s集群,流水線容器構(gòu)建集群上線
查看詳細(xì)
嘉為藍(lán)鯨CCI持續(xù)集成平臺(tái):Matrix Job 帶你開(kāi)啟流水線編排 2.0 時(shí)代
查看詳細(xì)
告警管理:如何從零散事件中挖出關(guān)鍵信息
查看詳細(xì)
嘉為藍(lán)鯨CPack制品庫(kù):全新ML模型管理功能,助力AI交付與企業(yè)級(jí)DevOps實(shí)踐無(wú)縫結(jié)合
查看詳細(xì)
申請(qǐng)演示