1. 從傳統(tǒng)運(yùn)維到AIOps應(yīng)用
1.1 場(chǎng)景舉例
以企業(yè)常見的監(jiān)控場(chǎng)景為例,傳統(tǒng)的運(yùn)維模式一般會(huì)采用閾值指標(biāo)對(duì)特定的IT對(duì)象設(shè)置告警策略。閾值的設(shè)定往往是固定不變的指標(biāo),在某些情形下會(huì)出現(xiàn)誤告警或者不告警的問(wèn)題,固定的閾值指標(biāo)不能直接反映被監(jiān)控對(duì)象的運(yùn)行狀態(tài);更有甚者,許多告警事件之間存在共同原因,但是因?yàn)楝F(xiàn)有技術(shù)手段的原因不能找到發(fā)生告警的根本原因。諸如此類的情形導(dǎo)致組織效率低下、運(yùn)維成本增高。
以上是傳統(tǒng)運(yùn)維中發(fā)生的典型場(chǎng)景,為了解決類似的問(wèn)題,我們從場(chǎng)景出發(fā)抽象出解決方法的邏輯,可以發(fā)現(xiàn),運(yùn)維人員要做到:
其實(shí)要實(shí)現(xiàn)類似的功能或者目的,不可或缺的是機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析等新興技術(shù)手段。
1.2 傳統(tǒng)運(yùn)維困境特征總結(jié)
傳統(tǒng)的運(yùn)維模式正在面臨兩個(gè)主要的運(yùn)維挑戰(zhàn):
與上例中傳統(tǒng)運(yùn)維面對(duì)的監(jiān)控場(chǎng)景的困境類似,日益復(fù)雜的運(yùn)維環(huán)境和新技術(shù)的更新迭代會(huì)帶來(lái)一下問(wèn)題:
一般而言,傳統(tǒng)運(yùn)維要經(jīng)過(guò)腳本化運(yùn)維、工具化運(yùn)維、平臺(tái)化運(yùn)維、大數(shù)據(jù)運(yùn)維,才能到達(dá)智能化運(yùn)維階段。如果從執(zhí)行和決策的角度觀察整個(gè)運(yùn)維體系的演變,運(yùn)維體系的決策權(quán)和執(zhí)行權(quán)逐步的向機(jī)器或者系統(tǒng)轉(zhuǎn)向,越是先進(jìn)的運(yùn)維體系或者工具,人在運(yùn)維工作中的比重越低。具體內(nèi)容可參看下圖:
1.3 傳統(tǒng)運(yùn)維困境解決方案—AIOps逐漸浮出水面
我們必須承認(rèn):在傳統(tǒng)方案下的運(yùn)維能力已經(jīng)達(dá)到了傳統(tǒng)運(yùn)維階段應(yīng)有的最高效率,因?yàn)橐坏﹤鹘y(tǒng)的運(yùn)維解決方案進(jìn)一步改進(jìn)的空間,那么運(yùn)維困境就不會(huì)這么廣泛和普遍,也就是說(shuō)以上傳統(tǒng)運(yùn)維面臨的共性問(wèn)題是已有的運(yùn)維體系達(dá)到了自身的能力邊界后產(chǎn)生的。
在運(yùn)維行業(yè),技術(shù)的革新和應(yīng)用是提升運(yùn)維效率的至關(guān)重要的方法。針對(duì)傳統(tǒng)運(yùn)維無(wú)法解決的問(wèn)題,新的技術(shù)和方法得到應(yīng)用,比如大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)技術(shù)。而AIOps正是以這兩種技術(shù)為代表的新興的運(yùn)維技術(shù)解決方案。
2. AIOps內(nèi)容
2.1 AIOps演變
AIOps是從ITOA演變過(guò)來(lái)的一個(gè)行業(yè)術(shù)語(yǔ),ITOA是通過(guò)軟件或者工具把不同來(lái)源的信息收集起來(lái)進(jìn)而運(yùn)用大數(shù)據(jù)分析技術(shù)形成對(duì)運(yùn)維事件的觀點(diǎn)。AIOps在內(nèi)涵上與ITOA有一脈相承的地方,但是在以下三個(gè)方面做了拓展:
2.2 AIOps定義
根據(jù)國(guó)際著名管理咨詢機(jī)構(gòu)Gartner的定義,AIOps是大數(shù)據(jù)和機(jī)器學(xué)習(xí)的結(jié)合,使 IT 操作流程自動(dòng)化,包括事件關(guān)聯(lián)、異常檢測(cè)和因果關(guān)系確定。
如何理解Gartner的定義呢?這里有兩個(gè)重點(diǎn),一個(gè)是大數(shù)據(jù)和機(jī)器學(xué)習(xí)的技術(shù)手段,另一個(gè)是基于技術(shù)手段做到的場(chǎng)景功能:運(yùn)維環(huán)境或者事件的可視化(這里的可視化不僅僅是指可視化的界面展示,而是側(cè)重運(yùn)維數(shù)據(jù)包含能夠?qū)е鹿ぷ魅藛T得出對(duì)運(yùn)維事件的有價(jià)值觀點(diǎn)的信息,如因果關(guān)系、關(guān)聯(lián)關(guān)系等)。具體可參考下圖:
我們可以將AIOps理解成:學(xué)習(xí)人類在運(yùn)維過(guò)程中枯燥乏味的部分,包括機(jī)械化的操作、思維固化的判斷識(shí)別,并代替人類高效完成這部分工作,讓人類能夠?qū)r(shí)間和精力投入到有價(jià)值的創(chuàng)造中去,讓企業(yè)實(shí)現(xiàn)業(yè)務(wù)價(jià)值,讓員工發(fā)揮創(chuàng)造性,獲得自我收獲。
機(jī)器學(xué)習(xí)的作用在于:使用算法從運(yùn)維數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)、預(yù)警。
機(jī)器學(xué)習(xí)過(guò)程包括:
整個(gè)AIOps的運(yùn)維過(guò)程可以概括為:AI幫助人,ML賦能人。
2.3 AIOps的運(yùn)維目標(biāo)
作為傳統(tǒng)運(yùn)維技術(shù)方案出現(xiàn)缺陷之后的補(bǔ)救或者優(yōu)化方法,AIOps旨在得到運(yùn)維環(huán)境中有意義的見解并采取行動(dòng),以幫助 IT 運(yùn)行更高效的運(yùn)營(yíng)、做出更好的決策、以及支持業(yè)務(wù)生產(chǎn)力進(jìn)一步發(fā)展。
2.4 AIOps工作原理步驟
2.5 AIOps最佳實(shí)踐
2.6 業(yè)界AIOps運(yùn)維建設(shè)進(jìn)展總結(jié)
根據(jù)人工智能運(yùn)維體系在現(xiàn)實(shí)中的落地情況,大概可以分成五個(gè)發(fā)展層級(jí),分別是:初始級(jí)、成長(zhǎng)級(jí)、成熟級(jí)、專家級(jí)、卓越級(jí),就大多數(shù)使用智能運(yùn)維手段的公司而言,相當(dāng)比例的企業(yè)處于專家級(jí)之前的階段。
2.7 AIOps運(yùn)維服務(wù)架構(gòu)設(shè)計(jì)
經(jīng)過(guò)前面的敘述,我們要時(shí)刻不忘AIOps的運(yùn)維的本質(zhì):數(shù)據(jù)逐步建設(shè)和治理、學(xué)件逐步深入和全面、場(chǎng)景逐步擴(kuò)展和聯(lián)動(dòng)、組織逐步培養(yǎng)和賦能,即無(wú)論是任何工具或者技術(shù)手段的應(yīng)用,都要服從于提升運(yùn)維體系建設(shè)、賦能組織的運(yùn)維目標(biāo)。
AIOps運(yùn)維體系架構(gòu)圖參考:
2.8 AIOps建設(shè)路徑
① 路徑架構(gòu)圖
通過(guò)以上的介紹,可以發(fā)現(xiàn),AIOps的發(fā)展路徑一直受到數(shù)據(jù)處理和分析能力的延宕或者推動(dòng),換言之,是數(shù)據(jù)的分析和處理能力決定了企業(yè)的智能運(yùn)維解決方案能夠走多遠(yuǎn)。下圖展示了整個(gè)AIOps運(yùn)維的建設(shè)路徑,數(shù)據(jù)管理能力分成了三個(gè)階段,由數(shù)據(jù)管理能力決定的智能分析也如此劃分,智能運(yùn)維的目標(biāo)是具備智能數(shù)據(jù)管理能力以及復(fù)合模型的分析能力,從而服務(wù)與業(yè)務(wù)畫像(運(yùn)維數(shù)據(jù)的洞察)。
② 數(shù)據(jù)管理
在AIOps運(yùn)維體系中,數(shù)據(jù)的管理以及基于數(shù)據(jù)的分析能力是整個(gè)智能運(yùn)維的基礎(chǔ)和起點(diǎn)。
從數(shù)據(jù)屬性上將,數(shù)據(jù)包括屬性數(shù)據(jù)、運(yùn)行數(shù)據(jù)和服務(wù)數(shù)據(jù):
從數(shù)據(jù)的來(lái)源上講,智能運(yùn)維致力于把來(lái)自技術(shù)、業(yè)務(wù)及管理的數(shù)據(jù)元數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、分析、應(yīng)用:
對(duì)這三種數(shù)據(jù)的管理要遵循幾個(gè)原則:
3. AIOps相比傳統(tǒng)運(yùn)維的優(yōu)勢(shì)
AIOps在整體層面而言,可以實(shí)現(xiàn)海量數(shù)據(jù)下的智能決策,提升故障發(fā)現(xiàn)、分析、處理的整體效率,并不斷沉淀經(jīng)驗(yàn),實(shí)現(xiàn)更為快速和精準(zhǔn)的運(yùn)維運(yùn)營(yíng)決策。
具體到各個(gè)利益利益相關(guān)方,則有如下的優(yōu)勢(shì):
1. 對(duì)一線運(yùn)維人員:
2. 對(duì)企業(yè)IT部門:
3. 對(duì)使用企業(yè)產(chǎn)品
CMDB治理:CMDB消費(fèi)場(chǎng)景規(guī)劃指南
查看詳細(xì)
CTest測(cè)試管理平臺(tái):上新用例結(jié)構(gòu)化設(shè)計(jì)
查看詳細(xì)
CCode代碼管理平臺(tái):代碼合并前CI任務(wù)狀態(tài)校驗(yàn)
查看詳細(xì)
嘉為藍(lán)鯨WeOps:高效監(jiān)控Kubernetes集群的三大關(guān)鍵點(diǎn)
查看詳細(xì)
CFlow價(jià)值流管理平臺(tái):從流程線上化到價(jià)值可視化,研運(yùn)黑盒破解之道
查看詳細(xì)
CPack制品庫(kù):制品黑白名單,為軟件供應(yīng)鏈安全護(hù)航
查看詳細(xì)
申請(qǐng)演示