復(fù)雜事件處理(CEP,Complex Event Processing)是一項針對動態(tài)事件流進行實時分析、復(fù)雜模式識別及關(guān)聯(lián)性推理的技術(shù),廣泛適用于處理海量實時數(shù)據(jù)、挖掘事件間深層關(guān)聯(lián)的場景。例如:銀行交易反欺詐挖掘、高頻交易策略優(yōu)化等場景,在這些場景中,系統(tǒng)通過在海量事件中基于復(fù)雜規(guī)則(如特征、上下文、時序關(guān)系、因果關(guān)聯(lián)等)識別并聚合成高層次事件。
以具體案例為例:用戶A在上海凌晨通過手機支付1萬元(原子事件1),同時其銀行卡在深圳ATM機嘗試取現(xiàn)5萬元(原子事件2),系統(tǒng)基于“地理位置+時間突變+超額交易”的規(guī)則,將其識別為“盜刷風險”這一高層次復(fù)合事件,而這種技術(shù)同樣非常適用于IT運維中的告警管理場景。
我們先回顧一下告警管理,由于國外術(shù)語翻譯的差異,告警管理中的幾個核心概念常被混淆:
1)Event
指系統(tǒng)中發(fā)生的任何可觀察到的變化 ,是最基礎(chǔ)的概念,比如服務(wù)器CPU使用率發(fā)生了變化,一般是有監(jiān)控系統(tǒng)產(chǎn)生的,數(shù)量最多但是富含的信息也是最豐富的。
2)Alert
數(shù)據(jù)邏輯上是Event的聚合,是運維人員最常處理的對象,它意味著某個IT對象出現(xiàn)了問題,需要進行關(guān)注,這里我們其實需要告警系統(tǒng)不應(yīng)單純將超過閾值的Event直接升級為Alert并通知,而是需將相關(guān)聯(lián)的Event合理聚合為Alert,以助力后續(xù)問題排查。
3)Incident
已經(jīng)影響或者可能影響服務(wù)的運行了,我們需要將這個事故有關(guān)的信息(Alert、Event)聚合在一起,拉上相關(guān)的人員共同處理問題,這是一個高級場景事件的識別與管理維度的結(jié)合。
在CEP的邏輯中,是通過規(guī)則的方式來描述與聚合,將原子事件挖掘與指向到系統(tǒng)中更加高級別的活動,而這個規(guī)則有幾個核心:事件類型、事件模式規(guī)則、動作。其中事件之間普遍的關(guān)系分三種:
(1)下面舉一個例子
“若Web服務(wù)器發(fā)生‘連接超時’告警(原子事件),且負載均衡器同步出現(xiàn)‘請求轉(zhuǎn)發(fā)失敗’日志(原子事件),則觸發(fā)‘服務(wù)鏈路故障’復(fù)合事件”。
從中可以看到,我們可以從“低層次”且“多”的基礎(chǔ)事件中,結(jié)構(gòu)化的推斷出“高層次”且“少”的復(fù)合事件,而層次越高越接近支撐決策的信息。
我們可以驚喜的看到,嘉為藍鯨告警中心的邏輯可以按照CEP的模式進行解釋,告警抑制、告警壓縮、告警處理等概念都是可以在CEP的規(guī)則模式下進行抽象與對應(yīng)。通過CEP的理論基礎(chǔ),幫助我們通過結(jié)構(gòu)化解析IT系統(tǒng)中的 “數(shù)據(jù)噪聲”,將孤立事件轉(zhuǎn)化為可行動的洞察,為告警管理的建設(shè)提供支撐,助力企業(yè)構(gòu)建 “監(jiān)控-分析-響應(yīng)” 的閉環(huán)自動化體系。
CMDB治理:CMDB數(shù)據(jù)消費與應(yīng)用指南
查看詳細
1分鐘解鎖開箱即用價值流:研發(fā)效率飆升實戰(zhàn)指南
查看詳細
CCI持續(xù)集成平臺:高效集成K8s集群,流水線容器構(gòu)建集群上線
查看詳細
嘉為藍鯨CCI持續(xù)集成平臺:Matrix Job 帶你開啟流水線編排 2.0 時代
查看詳細
告警管理:如何從零散事件中挖出關(guān)鍵信息
查看詳細
嘉為藍鯨CPack制品庫:全新ML模型管理功能,助力AI交付與企業(yè)級DevOps實踐無縫結(jié)合
查看詳細
申請演示