近年來,隨著企業(yè)業(yè)務(wù)規(guī)模日益龐大,IT架構(gòu)日益復(fù)雜,云計算、微服務(wù)等一系列技術(shù)在各企業(yè)內(nèi)部開始逐步探索落地。技術(shù)的發(fā)展不僅對企業(yè)內(nèi)部運維管理產(chǎn)生了極大的挑戰(zhàn),對于監(jiān)控體系也提出了更高的要求。
某運營商公司在IT架構(gòu)搭建、組織部門規(guī)劃時,大膽采用先進理念,進行了全部業(yè)務(wù)系統(tǒng)的分布式設(shè)計、SRE運維部門的分工創(chuàng)建。嘉為藍鯨全棧智能觀測中心在其中為業(yè)務(wù)系統(tǒng)的研發(fā)測試、快速迭代提供了重要的工具能力支撐;為SRE運維組觀測業(yè)務(wù)系統(tǒng)運行情況、及時定位分析處置告警提供了統(tǒng)一能力平臺。
01. 業(yè)務(wù)場景
分布式、微服務(wù)、云原生等先進應(yīng)用架構(gòu)在落地敏捷開發(fā)、快速迭代、彈性伸縮的同時將原有的單體應(yīng)用拆分成多個獨立部署相互通信的組合應(yīng)用。應(yīng)用數(shù)量指數(shù)級增長,業(yè)務(wù)模塊間依賴關(guān)系錯綜復(fù)雜,不同業(yè)務(wù)層級不同維度難以建立實時有效的映射關(guān)系。同時,隨著容器頻繁啟停,監(jiān)控對象及其指標(biāo)變化成為常態(tài),故障現(xiàn)場難以留存、故障問題難以有效定位。
02. 分析痛點
以上云原生架構(gòu)的觀測難點給應(yīng)用運維的故障分析、根因定位、業(yè)務(wù)連續(xù)穩(wěn)定帶來嚴(yán)峻挑戰(zhàn)。應(yīng)用觀測難點概述為以下兩點:
1)信息維度復(fù)雜,難以建立多維數(shù)據(jù)關(guān)聯(lián)映射關(guān)系
云原生應(yīng)用的監(jiān)控度量涉及應(yīng)用進程、中間件、容器編排平臺、容器進程、資源基礎(chǔ)設(shè)施等相關(guān)層級資源屬性和性能指標(biāo);其次,應(yīng)用排障及性能剖析涉及多個服務(wù)、多個組件復(fù)雜交互關(guān)系,需根據(jù)請求鏈路依賴關(guān)系分析故障根因。
2)架構(gòu)動態(tài)變化,故障現(xiàn)場難以留存,問題難以定位
容器部署架構(gòu)基于聲明式面向終態(tài)的設(shè)計思想,部署資源實例對象變更頻繁,服務(wù)節(jié)點漂移成為常態(tài)?;诙嗑S明細數(shù)據(jù)和指標(biāo)數(shù)據(jù)關(guān)聯(lián)映射構(gòu)建的運行時觀測分析矩陣能有效回溯歷史故障現(xiàn)場。
03. 解決方案
1)合縱連橫故障尋址
縱向:建立運行時軟件架構(gòu)級聯(lián)對象下鉆分析邏輯?;趯嶋H業(yè)務(wù)流量構(gòu)建不同服務(wù)的全局依賴拓撲,實現(xiàn)可選時間范圍的單業(yè)務(wù)領(lǐng)域全景分析,通過拓撲節(jié)點大小、顏色差異有效分析服務(wù)流量負載及服務(wù)健康狀態(tài),支持對服務(wù)節(jié)點的下鉆分析、指定時間范圍內(nèi)服務(wù)請求、負載、錯誤、耗時黃金指標(biāo),在服務(wù)內(nèi)可下鉆分析服務(wù)的單一接口/單一服務(wù)實例進一步故障尋址分析。將服務(wù)實例與CMDB管理資源(主機、容器)關(guān)聯(lián),可下鉆至IaaS層資源,分析IT基礎(chǔ)資源指標(biāo)異常對服務(wù)流量的影響。
橫向:基于Trace串聯(lián)構(gòu)建單筆請求鏈路追蹤。每筆業(yè)務(wù)請求調(diào)用在入口服務(wù)生成請求唯一標(biāo)識,當(dāng)流量在下游多個服務(wù)傳遞時將請求唯一標(biāo)識、當(dāng)前節(jié)點請求標(biāo)識、上游服務(wù)信息作為上下文傳遞,從而構(gòu)建完成業(yè)務(wù)調(diào)用鏈路。此外,用戶可結(jié)合實際業(yè)務(wù)場景從HTTP請求頭、請求參數(shù)、cookie等獲取業(yè)務(wù)特征數(shù)據(jù)完成數(shù)據(jù)埋點,在鏈路分析時根據(jù)指定業(yè)務(wù)特征的請求依賴關(guān)系輔助業(yè)務(wù)異常分析。
2)調(diào)用鏈與日志明細關(guān)聯(lián)根因定位
在KAPM和KLC共同交付場景下,可將調(diào)用鏈和日志明細進行關(guān)聯(lián),實現(xiàn)高效根因定位。通過KAPM調(diào)用鏈分析能力用戶可以確定請求依賴關(guān)系、縮小排障范圍、準(zhǔn)確故障尋址,但無法獲取故障根因明細,在此場景下將調(diào)用鏈和日志明細關(guān)聯(lián)無縫鏈接排障最后“一公里”。
04. 成果展示
1)核心應(yīng)用系統(tǒng)全覆蓋
2)根據(jù)應(yīng)用運行情況,展示應(yīng)用概覽看板
3)應(yīng)用關(guān)聯(lián)資源自動發(fā)現(xiàn)
4)接口級運行狀況監(jiān)控
5)系統(tǒng)請求Trace實時檢索
05. 建設(shè)成效
06. 場景適用性
嘉為藍鯨可觀測中心適用于企業(yè)內(nèi)部系統(tǒng)分布式架構(gòu)設(shè)計,微服務(wù)化系統(tǒng)單元的場景。適用于以下類型的企業(yè):
CMDB治理:CMDB數(shù)據(jù)消費與應(yīng)用指南
查看詳細
1分鐘解鎖開箱即用價值流:研發(fā)效率飆升實戰(zhàn)指南
查看詳細
CCI持續(xù)集成平臺:高效集成K8s集群,流水線容器構(gòu)建集群上線
查看詳細
嘉為藍鯨CCI持續(xù)集成平臺:Matrix Job 帶你開啟流水線編排 2.0 時代
查看詳細
告警管理:如何從零散事件中挖出關(guān)鍵信息
查看詳細
嘉為藍鯨CPack制品庫:全新ML模型管理功能,助力AI交付與企業(yè)級DevOps實踐無縫結(jié)合
查看詳細
申請演示