近年來,可觀測性建設(shè)已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型的高熱話題,但大多數(shù)企業(yè)在實踐落地過程中往往會發(fā)現(xiàn),以往的建設(shè)模式并不能夠在企業(yè)中發(fā)揮良好的作用,單純的引入產(chǎn)品或工具已經(jīng)沒有辦法達到建設(shè)需求。本期我們邀請到嘉為藍鯨運維產(chǎn)品負責人宋蘊真,從戰(zhàn)略管理,到組織度量,最后再到工具應(yīng)用層面對可觀測落地實踐進行深度剖析,自上而下對可觀測落地建設(shè)進行梳理,帶您一步步深入探索可觀測性的落地實踐。
01. 戰(zhàn)略目標:服務(wù)于業(yè)務(wù)
數(shù)字化轉(zhuǎn)型是一個長期過程,早期企業(yè)IT運維主要還是面向物理設(shè)備,而隨著技術(shù)架構(gòu)的不斷發(fā)展,運維對象逐漸向虛擬化、云化趨勢發(fā)展,軟件架構(gòu)逐漸向SOA、云原生等架構(gòu)轉(zhuǎn)變。業(yè)務(wù)的線上化趨勢下,傳統(tǒng)IT運維往往無法及時感知和處理問題,企業(yè)運維處于黑盒化狀態(tài),在此背景下,運維管理體系需要向自動化、智能化轉(zhuǎn)型,以服務(wù)于快速發(fā)展的企業(yè)業(yè)務(wù)。
在數(shù)字化轉(zhuǎn)型過程中,運維的核心目標就是保障業(yè)務(wù)的連續(xù)性,IT運維整體的轉(zhuǎn)型戰(zhàn)略目標也需要始終服務(wù)于業(yè)務(wù),在不同的建設(shè)階段通過不同方法和手段,快速的發(fā)現(xiàn)問題、解決問題可觀測是IT數(shù)字化轉(zhuǎn)型宏偉目標的其中一步,通過可觀測體系的建設(shè),不斷提煉運維數(shù)據(jù)價值,幫助和驅(qū)動業(yè)務(wù)部門決策,并在這個過程中對IT組織進行持續(xù)的度量和改進,最終更好的推進企業(yè)數(shù)字化轉(zhuǎn)型宏偉目標的實現(xiàn)。
1)可觀測建設(shè)的核心目標與挑戰(zhàn)
可觀測的建設(shè)是服務(wù)于業(yè)務(wù)的,首先需要細分并明確可觀測建設(shè)的核心目標。
與此同時,云原生技術(shù)下的IT系統(tǒng)日益復(fù)雜,歷史系統(tǒng)、工具難以一時替換,而國產(chǎn)替代、自主可控又提出了新的要求,實現(xiàn)目標的挑戰(zhàn)也越來越大:
02. 戰(zhàn)略拆分:問題處理的生命周期
確立總體服務(wù)與業(yè)務(wù)的戰(zhàn)略目標后,需要對目標進行一步步的拆分。通常情況下可觀測應(yīng)用場景主要集中在處理IT運維問題上,而運維人員在工作中真正遇到故障時主要包括故障的發(fā)現(xiàn)、定位和恢復(fù)過程,但除了這些故障處理工作之外,故障提前預(yù)防以及故障事后復(fù)盤根治也是故障全生命周期中的重要環(huán)節(jié)。
在不同的生命周期階段可觀測性也會有不同的關(guān)注點,我們需要把各個階段的目標進行細化,最終實現(xiàn)貫穿故障全生命周期的閉環(huán)處理,從而減少故障的發(fā)生頻率和故障恢復(fù)時間,提高運維整體效能。
1)預(yù)防階段
預(yù)防階段主要關(guān)注以下幾個方面,來降低故障發(fā)生的頻率,做好預(yù)防階段的規(guī)劃也是提高SLA的最根本的手段,通常這類規(guī)劃不會單獨由運維來執(zhí)行,而是需要整體團隊協(xié)同配合,共同達成的目標。
2)軟件架構(gòu)設(shè)計:
● 技術(shù)選型:選擇相對主流、穩(wěn)定的基礎(chǔ)組件來構(gòu)建生產(chǎn)系統(tǒng)。
● 易維護性:建立自身產(chǎn)品的可觀測,工具支持快速告警,支持干預(yù),易恢復(fù)。
● 高可用設(shè)計:冗余設(shè)計與建立容災(zāi)機制。
● 事務(wù)性:處理好分布式事務(wù),保障數(shù)據(jù)一致性。
● 可擴展:對能力進行抽象與配置驅(qū)動,實現(xiàn)擴展性。
3)容災(zāi)與災(zāi)切:
● 容災(zāi):通過采取預(yù)防性措施,在系統(tǒng)發(fā)生故障時能夠順利恢復(fù),從而避免系統(tǒng)癱瘓。常見的容災(zāi)措施包括備份和恢復(fù)、冗余、負載平衡等
● 災(zāi)切:在系統(tǒng)發(fā)生故障時,快速的切換到備用系統(tǒng),避免業(yè)務(wù)中斷。通常需要在容災(zāi)措施的基礎(chǔ)上進行,需要對備用系統(tǒng)進行定期測試和維護
4)預(yù)警機制:
● 定指標:利用觀測指標作為預(yù)警指標,可以是資源使用率或特定日志
● 設(shè)閾值:合理設(shè)置觸發(fā)閾值,考慮好檢測周期與指標周期的匹配
● 建流程:為不同級別的事件設(shè)計相應(yīng)的處置流程,對于跨部門問題處理要建設(shè)問題支持工單流程。
5)混沌工程(測試):
● 目的:通過測試確保軟件質(zhì)量,通過混沌工程提高軟件質(zhì)量
● 方法:混沌工程通過模擬現(xiàn)實世界的混沌環(huán)境,來測試軟件的可靠性和可用性,而測試則是通過執(zhí)行特定的測試用例,來檢驗軟件是否能夠滿足需求。
● 落地:大多數(shù)企業(yè)的業(yè)務(wù)規(guī)模下,我們需要做好測試工作,保障業(yè)務(wù)正常運轉(zhuǎn)。只有在一些互聯(lián)網(wǎng)企業(yè),針對大型分布式系統(tǒng)時可能才會涉及到混沌工程的建設(shè)。
6)問題處置階段
在日常處置問題的階段,運維人員主要關(guān)注兩個核心指標:MTBF,MTTR。
MTBF:故障預(yù)防、故障根治階段的度量指標,需要持續(xù)提升,拉長故障發(fā)生的間隔周期。
MTTR:包含故障發(fā)現(xiàn)、定位、恢復(fù)時長。故障發(fā)生時需要有良好的多團隊協(xié)作機制,快速定位初因,故障預(yù)案執(zhí)行迅速且不引發(fā)二次故障。
在這一階段運維人員可以從監(jiān)控、告警、流程、自動化以及管理機制等多個方面著手處理,其核心目標就是將平均故障恢復(fù)時間(MTTR)盡可能降低,保障業(yè)務(wù)的連續(xù)性:
7)事后根治與復(fù)盤
故障的根治并不代表能夠徹底消除故障,而是通過事后的復(fù)盤和一些處理手段的總結(jié),能夠盡量減少同類故障的發(fā)生,同時在過程中通過對人員的管理和考核手段,做好良好的文化建設(shè),避免“追責”、“甩鍋”、“自黑”、“賣慘”等不良文化,進行團隊可持續(xù)性優(yōu)化和改進。
03. 組織管理:可度量考核
可觀測建設(shè)并不只是軟件或者工具的建設(shè),在實際落地過程中,最終面向工具的還是“人”。除了工具的建設(shè),可觀測的組織文化建設(shè)也是必不可少的。而是否對組織進行了合理規(guī)劃、組織之間是否能夠高效協(xié)同配合,是否建立了可度量的考核體系,對提升企業(yè)整體運維水平也起著十分關(guān)鍵的作用。
1)組織劃分
首先需要明確在故障處理全生命周期中,需要哪些組織的參與,通常我們的組建思路會分為上下兩部分:
2)向上
應(yīng)用運維部門,這類組織面向的運維對象是多方面的,并不會專精于某一個對象之中,通常會偏向職能層面。
3)向下
數(shù)據(jù)中心運維。更多組建的是對象專家團隊,分別對各類資源去設(shè)計組織,確保團隊的專業(yè)性,針對相應(yīng)問題能夠有效提供解決方法。
4)組織協(xié)同配合
組織間的協(xié)同與配合在許多企業(yè)中是較為棘手的,部分企業(yè)并沒有針對團隊協(xié)同做相關(guān)的建設(shè),通常是靠人際關(guān)系來推動問題的解決,而建立良好的協(xié)作機制與完善的問題處理流程能夠大大提升企業(yè)組織效率,并實現(xiàn)可推廣的組織文化。
這里我們以組織間協(xié)作的常見流程ITR(issue to resolved)為例:
在常規(guī)問題處理過程中,要做好信息化的ITR流程記錄,同時做好基于真實記錄的度量,為后續(xù)的考核與改進提供有力的依據(jù)。
在緊急問題處理下,做好問題的上升,快速將無法解決的反饋到更加專業(yè)的團隊中,使得問題能夠得到更有效的處置,從而更快速的完成問題閉環(huán)。
5)能力要求與績效考核
通??冃Э己艘彩瞧髽I(yè)IT組織較為頭痛的問題。在績效考核上,核心是要持續(xù)不斷的做好日常工作的過程度量,從而才能夠量化考核決定績效指標,最終影響提現(xiàn)在激勵上。
同時整個過程的度量可以用于人員的職級評定的重要指標依據(jù),管理者需要做好資源的調(diào)配與激勵規(guī)劃,同時在組織中要推動技術(shù)帶頭人不斷賦能工程師,團隊內(nèi)部互相扶持進步,實現(xiàn)整體團隊的前進,從而形成良好的組織管理閉環(huán)。
04. 工具應(yīng)用——匹配戰(zhàn)略戰(zhàn)術(shù)
1)可觀測工具:
在故障發(fā)現(xiàn)和恢復(fù)的第一階段,仍然是監(jiān)控告警等觀測工具,對原始三大支柱數(shù)據(jù):日志數(shù)據(jù)、指標數(shù)據(jù)、鏈路數(shù)據(jù)進行采集分析處理,基于這些基礎(chǔ)數(shù)據(jù),做好監(jiān)控告警策略的配置,實現(xiàn)事件的監(jiān)控與發(fā)現(xiàn)。
2)自動化工具:
在故障處理的中期階段,主要是自動化的工具體系,在這一過程中積累一些自動化能力,實現(xiàn)簡單故障的自愈,復(fù)雜問題可以同時結(jié)合人為判斷和以往經(jīng)驗沉淀進行處理,建立故障處置能力。一般來說自動化工具體系最好是與監(jiān)控、告警等觀測工具相互結(jié)合使用,更高效的完成故障處理。
3)流程流轉(zhuǎn)工具:
對于一些不確定的、無法解決的復(fù)雜的問題,難以在IT組織內(nèi)完成閉環(huán)的,可以通過流程體系的建設(shè),做好故障的流轉(zhuǎn)與問題的上升。可觀測工具、自動化工具與流程體系的相互融合以達到故障的全生命周期管理。
4)組織管理:
最后是結(jié)合上文對組織度量和考核的建設(shè),對涉及到的HR系統(tǒng)、度量與BI能力、ITSM等進行相應(yīng)的配套優(yōu)化,以度量數(shù)據(jù)為基礎(chǔ),以變化為導(dǎo)向制定考核指標,從而實現(xiàn)有效的組織管理。
可觀測的落地是一個龐大的工程,本期我們僅僅只從部分維度分享了關(guān)于戰(zhàn)略管理到工具落地的相關(guān)經(jīng)驗,對于監(jiān)控告警指標設(shè)計、日志管理、應(yīng)用體驗優(yōu)化等更加細分的內(nèi)容,我們將在可觀測系列直播中進行更加深入的分享,如果您感興趣或有相應(yīng)建設(shè)需求,歡迎聯(lián)系我們!
CMDB治理:CMDB數(shù)據(jù)消費與應(yīng)用指南
查看詳細
1分鐘解鎖開箱即用價值流:研發(fā)效率飆升實戰(zhàn)指南
查看詳細
CCI持續(xù)集成平臺:高效集成K8s集群,流水線容器構(gòu)建集群上線
查看詳細
嘉為藍鯨CCI持續(xù)集成平臺:Matrix Job 帶你開啟流水線編排 2.0 時代
查看詳細
告警管理:如何從零散事件中挖出關(guān)鍵信息
查看詳細
嘉為藍鯨CPack制品庫:全新ML模型管理功能,助力AI交付與企業(yè)級DevOps實踐無縫結(jié)合
查看詳細
申請演示