01. 數(shù)字化轉(zhuǎn)型與可觀測的關系
在數(shù)字化轉(zhuǎn)型的浪潮中,我們面臨著將“線下業(yè)務線上化”及實現(xiàn)“業(yè)務快速創(chuàng)新迭代”的迫切需求,這也進而要求支撐業(yè)務的應用系統(tǒng)更加敏捷、可擴展性更高。
因而,分布式、云原生是企業(yè)應用架構(gòu)的發(fā)展方向。
分布式架構(gòu)下,各種IT對象如消息隊列、緩存、分布式數(shù)據(jù)庫等層出不窮,并且組件間的調(diào)用關系錯綜復雜。
此時,傳統(tǒng)IT監(jiān)控只能提供資源層面的狀態(tài)警告,無法提供分布式應用故障診斷所需的更多有效信息,因此,一個面向應用面向故障的全??捎^測方案越來越成為企業(yè)IT運維的迫切需求。
02. 30年過去,終迎來第二代監(jiān)控——可觀測
IT監(jiān)控作為IT運維之眼,是IT運維第一個建設的工具,追溯IT監(jiān)控工具歷史,已有30年之久。傳統(tǒng)IT監(jiān)控的發(fā)展,主要是在監(jiān)控對象以及在監(jiān)控能力(如指標、Log、Trace)的不斷擴展,發(fā)展至今,已形成眾多從IaaS到SaaS層的監(jiān)控工具。據(jù)Gartner市場調(diào)研數(shù)據(jù)顯示,超過70%的中大型企業(yè)擁有10個以上的IT監(jiān)控工具,以滿足各種IT監(jiān)控需求。
監(jiān)控工具越來越多,但每個監(jiān)控工具卻只能揭示業(yè)務和應用的部分問題,且工具能力重合、工具數(shù)據(jù)互為煙囪,這導致用戶難以聯(lián)動整合所有監(jiān)控,面向整個業(yè)務和應用進行全面的故障診斷。
傳統(tǒng)工具發(fā)展的這些瓶頸和問題在可觀測體系中得到了完美解決。
傳統(tǒng)監(jiān)控與可觀測的主要區(qū)別如下:
簡單來講,監(jiān)控主要聚焦在感知,可觀測還聚焦于問題出現(xiàn)之后診斷分析和隱患發(fā)現(xiàn)。
03. 基于四大支柱數(shù)據(jù)設計可觀測體系
要做到面向應用、面向故障的可觀測,我們需要為整個應用系統(tǒng)的生產(chǎn)運行拓撲進行建模,并將應用所有相關組件的各種觀測數(shù)據(jù)進行有機聚合,因此,可觀測體系設計的核心理念在于對Metirc、Log、Trace、Topology這四大支柱數(shù)據(jù)進行統(tǒng)一采集、統(tǒng)一治理和有機聚合。
這幾個數(shù)據(jù)之間的關系如下:
基于上述理念,可抽象可觀測的數(shù)據(jù)模型如下:
基于此設計,我們可以自動構(gòu)建應用橫縱向全景拓撲,感知應用故障點。
根據(jù)故障點實現(xiàn)上游故障影響分析和下游故障根因溯源。
04. 可觀測成熟度模型
可觀測既包含了傳統(tǒng)監(jiān)控的技術(shù),又包含了基于數(shù)據(jù)和AI的統(tǒng)一數(shù)據(jù)治理與智能根因分析以實現(xiàn)端到端的監(jiān)控與分析的能力??捎^測體系的建設不是一蹴而就的,也不是將傳統(tǒng)監(jiān)控體系推倒重來,而是一個基于科學建設路徑和方法逐步演進的過程。
可觀測成熟度模型如下:
L1【基礎可觀測】
L2【應用可觀測】
L3【因果可觀測】
L4【主動可觀測】
L5【業(yè)務可觀測】
05. 可觀測平臺功能設計
可參考下圖進行可觀測平臺的功能設計:
06. 可觀測平臺建設過程
建設重點1——觀測元數(shù)據(jù)建模治理【Topology】
建設重點2——指標體系建模治理【Metric】
建設重點3——統(tǒng)一日志管理【Log】
可觀測平臺需要提供統(tǒng)一的、豐富的日志采集、清洗、檢索與展示能力以覆蓋各類設備日志管理需求。
建設重點4——APM實現(xiàn)故障追蹤【Trace】
APM是分布式系統(tǒng)的關鍵監(jiān)控能力,通過APM可以對應用的四個黃金指標進行監(jiān)控,可以對服務件、服務與組件間的調(diào)用狀態(tài)進行監(jiān)控,還可以實現(xiàn)對服務接口級、方法級的故障發(fā)現(xiàn)與診斷分析。
建設重點5——實現(xiàn)告警的全生命周期治理【Alert】
基于統(tǒng)一告警中心的建設,實現(xiàn)一條告警的全生命周期流轉(zhuǎn)閉環(huán)管控。
建設重點6——基于AI與LLM的智能可觀測【AI】
通過集成AI能力實現(xiàn)動態(tài)閾值、告警聚合收斂、時序預測、日志聚類分析、多維下鉆與根因定位等智能可觀測能力。
基于LLM可以構(gòu)建可觀測智能小助手,如展示告警詳情:
挖掘告警相關故障信息:
獲取故障推薦和交互式故障自動化處理:
建設重點7——基于應用可觀測向上構(gòu)建業(yè)務可觀測【Business】
在數(shù)字化時代,業(yè)務的穩(wěn)定生產(chǎn)運行都會反饋到應用系統(tǒng)的各項運行指標上,運維的最核心目標也是保障業(yè)務的穩(wěn)定生產(chǎn)運行。
當我們實現(xiàn)了應用可觀測后,基于應用可觀測能力去構(gòu)建面向上層各類業(yè)務活動、業(yè)務場景的可觀測,就會水到渠成且事半功倍。
業(yè)務觀測領域中,最重要的是對各類業(yè)務交易場景以及各個應用系統(tǒng)的業(yè)務黃金指標進行監(jiān)控,例如銀行,有各種支付、轉(zhuǎn)賬、查額、還款等場景,這些交易的交易鏈路如何自動構(gòu)建,如何監(jiān)測每一筆交易的效率和質(zhì)量,如何在交易異常的情況下迅速找到問題點并進行解決,是業(yè)務可觀測的重點建設內(nèi)容。
業(yè)界基于業(yè)務監(jiān)控的有三大技術(shù):APM的交易鏈路自動構(gòu)建與黃金指標監(jiān)測、應用標準化日志的交易鏈路自動構(gòu)建與黃金指標監(jiān)測、網(wǎng)絡流量鏡像分析的交易鏈路自動構(gòu)建與黃金指標監(jiān)測。
三者各有優(yōu)劣點,如基于APM的技術(shù)面臨著全量采集給應用帶來的性能壓力、基于日志則需要應用進行標準化日志輸出的改造、基于網(wǎng)絡流量則面臨著網(wǎng)絡丟包、數(shù)據(jù)量巨大和云原生SDN架構(gòu)下的流量采集技術(shù)壁壘等問題。企業(yè)需要根據(jù)自己的實際情況選擇合適的技術(shù)。
最后,業(yè)務可觀測的技術(shù)還需要能夠聯(lián)動應用可觀測,從而實現(xiàn)從業(yè)務指標到具體問題資源對象聯(lián)動起來的根因定位。
07. 可觀測平臺三年建設計劃建議
前面提到,可觀測不是將現(xiàn)有監(jiān)控推倒重來,而是基于現(xiàn)狀進行規(guī)劃建設。對于大部分傳統(tǒng)企業(yè)而言,可參考以下三年建設計劃:
第一年:感知&治理
第二年:定位&業(yè)務
第三年:智能&擴展
CMDB治理:CMDB數(shù)據(jù)消費與應用指南
查看詳細
1分鐘解鎖開箱即用價值流:研發(fā)效率飆升實戰(zhàn)指南
查看詳細
CCI持續(xù)集成平臺:高效集成K8s集群,流水線容器構(gòu)建集群上線
查看詳細
嘉為藍鯨CCI持續(xù)集成平臺:Matrix Job 帶你開啟流水線編排 2.0 時代
查看詳細
告警管理:如何從零散事件中挖出關鍵信息
查看詳細
嘉為藍鯨CPack制品庫:全新ML模型管理功能,助力AI交付與企業(yè)級DevOps實踐無縫結(jié)合
查看詳細
申請演示