在數(shù)字化轉(zhuǎn)型與國產(chǎn)化替代的雙重驅(qū)動下,傳統(tǒng)IT監(jiān)控工具正面臨前所未有的挑戰(zhàn)。以IBM Tivoli為代表的國外監(jiān)控產(chǎn)品,因廠商支持力度減弱、本土化服務退化及技術架構陳舊等問題,已難以滿足企業(yè)對國產(chǎn)化、自主可控和云原生環(huán)境的迫切需求。
隨著Tivoli核心產(chǎn)品(如ITM/ITCAM、Netcool系列)陸續(xù)停服,存量用戶亟需尋找既能覆蓋全棧觀測場景,又具備深度國產(chǎn)化適配能力的替代方案。嘉為藍鯨全棧智能觀測中心·鯨眼(以下簡稱“全棧智能觀測中心”)作為騰訊大規(guī)模IT生產(chǎn)環(huán)境錘煉出的全棧智能觀測中心,憑借一體化融合設計、開箱即用的信創(chuàng)生態(tài)支持、云原生監(jiān)控能力以及本土化服務優(yōu)勢,正成為企業(yè)替代Tivoli的高性價比選擇。
本文將通過現(xiàn)狀分析、場景覆蓋、國產(chǎn)化適配等維度,解析全棧智能觀測中心如何破解傳統(tǒng)監(jiān)控工具困局,助力企業(yè)構建自主可控的智能運維體系。
01.全棧智能觀測中心與Tivoli現(xiàn)狀分析
1)全棧智能觀測中心:深度融合,自主可控
2)Tivoli:多源技術組合,本土化適配受阻
3)全棧智能觀測中心與Tivoli的監(jiān)控能力替換
(備注:容量管理與服務器管理屬于基礎設施運維范疇,不在可觀測性(Observability)的能力覆蓋范圍內(nèi)。作為全??捎^測平臺,全棧智能觀測中心當前暫未集成這兩類功能模塊。但嘉為藍鯨已提供獨立的解決方案,包括智能報表系統(tǒng)和自動化運維平臺,可有效滿足相關需求。)
以下將通過具體場景對比,進一步闡述全棧智能觀測中心的核心價值與落地實踐。
02.全棧智能觀測中心與Tivoli的監(jiān)控場景對比
IBM Tivoli 的監(jiān)控和事件管理通常由多個子產(chǎn)品組合而成,例如 ITM (IBM Tivoli Monitoring) 主要負責基礎架構監(jiān)控,ITCAM (IBM Tivoli Composite Application Manager) 側(cè)重于應用性能和更深層次的組件監(jiān)控,而 Omnibus (Netcool/OMNIbus) 則專注于強大的事件管理和關聯(lián)分析。這種組合方式功能強大,但也可能帶來較高的復雜度和維護成本。
全棧智能觀測中心旨在提供一個更現(xiàn)代化、更統(tǒng)一、更能開箱即用的全棧可觀測平臺,在大部分的監(jiān)控場景中,全棧智能觀測中心一個產(chǎn)品就能實現(xiàn)Tivoli三個子產(chǎn)品的效用:
1)基礎架構與組件監(jiān)控
全棧智能觀測中心提供開箱即用的監(jiān)控能力,覆蓋操作系統(tǒng)、數(shù)據(jù)庫、中間件等基礎組件,支持通過插件化方式對接各類信創(chuàng)環(huán)境。相較于ITM的基礎資源監(jiān)控和ITCAM的組件級監(jiān)控,全棧智能觀測中心通過統(tǒng)一數(shù)據(jù)模型實現(xiàn)指標、日志、追蹤、告警數(shù)據(jù)的融合采集,顯著降低了多系統(tǒng)集成的復雜度。平臺提供SDK、標準協(xié)議和自定義插件三種接入方式,滿足企業(yè)級全棧觀測需求。
業(yè)務全景觀測
業(yè)務資源縱覽
資源詳情-指標視圖
組件監(jiān)控列表
2)虛擬化與容器監(jiān)控
全棧智能觀測中心同樣和Tivoli一樣具備虛擬化監(jiān)控能力,支持OpenStack、VMware ESX 等虛擬化平臺的監(jiān)控數(shù)據(jù)接入的同時,還支持對云環(huán)境進行一體化納管,支持插件化的方式對公有云和私有云平臺進行擴展監(jiān)控。
除了虛擬化監(jiān)控,全棧智能觀測中心在容器化這一現(xiàn)代化關鍵技術領域也具備明顯優(yōu)勢。對于正在采用或計劃采用容器技術 (如 Docker, Kubernetes) 的企業(yè),相較于Tivoli對傳統(tǒng)架構的強依賴,全棧智能觀測中心支持接入原生Kubernetes的容器監(jiān)控能力,提供從基礎設施到PaaS層的完整監(jiān)控鏈路,有效支撐企業(yè)云原生轉(zhuǎn)型。
云平臺監(jiān)控概覽
容器監(jiān)控資源列表
容器資源詳情-指標視圖
3)硬件設備監(jiān)控
在硬件設備監(jiān)控領域,Tivoli更多的是通過SNMP協(xié)議實現(xiàn)網(wǎng)絡設備性能和可用性的監(jiān)控,對于其他的物理機設備和存儲設備,缺少直接有效的監(jiān)控方式。而全棧智能觀測中心的硬件監(jiān)控支持多種帶外協(xié)議的對接以及多種數(shù)據(jù)類型的采集:基于SNMP、IPMI、SMI-S、Trap和Syslog協(xié)議的指標采集及日志采集,實現(xiàn)硬件設備的指標、日志、告警的統(tǒng)一監(jiān)控。
硬件監(jiān)控詳情-指標視圖
網(wǎng)絡拓撲
4)應用性能監(jiān)控
Tivoli體系中的ITCAM雖然提供APM能力,但常局限于對特定應用的監(jiān)控,如SAP和其他企業(yè)資源規(guī)劃(ERP)應用程序。與其他APM工具相比,ITCAM的集成能力非常有限,且安裝復雜,用戶界面陳舊等原因難以在國內(nèi)推廣。
而全棧智能觀測中心則采用現(xiàn)代化的探針埋點服務進程的方式,自動探測分布式服務端到端調(diào)用鏈路,自動生成服務調(diào)用拓撲,從應用、服務、接口、調(diào)用 4個層次層層深入,監(jiān)控應用的健康狀態(tài)和調(diào)用性能;并支持基礎資源監(jiān)控進行聯(lián)動和下鉆分析,輔助問題根因分析,提升問題定位效率。同時還支持應用服務調(diào)用視角、應用資源關聯(lián)視角、服務分析視角、接口分析視角、Trace調(diào)用鏈路視角多視角分析查看和追蹤問題。
應用觀測
應用詳情-鏈路拓撲
調(diào)用鏈檢索
5)告警事件閉環(huán)能力
Tivoli將高級事件處理能力(如去重、豐富、關聯(lián))集中于 Netcool/OMNIbus,子產(chǎn)品ITM中只具備基本的告警列表、規(guī)則和處理能力,并且事件規(guī)則的配置需要專門的技能進行腳本化配置和維護。
全棧智能觀測中心則將從告警管理、規(guī)則配置、處理、自動化轉(zhuǎn)工單到抑制、屏蔽、豐富、關聯(lián)分析等全流程能力內(nèi)建于平臺。其核心優(yōu)勢在于提供了可視化的告警規(guī)則配置界面,大幅降低了使用門檻,使普通運維人員也能輕松掌握和維護,促進告警規(guī)則的持續(xù)優(yōu)化和知識沉淀,從而不斷提升告警的準確性和有效性。
(Omnibus復古的配置頁面,理解和配置門檻都很高)
鯨眼告警閉環(huán)流程
告警源數(shù)據(jù)豐富配置
告警策略配置
03.全棧智能觀測中心替換 Tivoli 事件規(guī)則實操
截至目前,全棧智能觀測中心團隊已經(jīng)在近十個項目中將 IBM Tivoli 替換為全棧智能觀測中心產(chǎn)品,一個核心且常見的需求是將Tivoli系統(tǒng)中長期積累的事件規(guī)則遷移至全棧智能觀測中心平臺。然而,這項任務面臨一個關鍵挑戰(zhàn):Tivoli的事件規(guī)則通常以腳本形式存在,這些腳本往往缺乏清晰的文檔記錄,甚至客戶自身也難以完全解讀其復雜的邏輯。這種不透明性直接導致在全棧智能觀測中心中準確、完整地復現(xiàn)這些關鍵規(guī)則變得異常困難。
過去,這一遷移過程高度依賴具備深厚Tivoli專業(yè)知識的專業(yè)人員進行人工分析和解讀,不僅耗時費力,實施效率也因此受到極大限制,項目周期常常被拉長。
幸運的是,隨著大語言模型(LLM)技術的興起與應用,全棧智能觀測中心團隊探索并實踐了一套創(chuàng)新的解決方案。我們現(xiàn)在可以利用大模型對Tivoli的規(guī)則腳本進行自動化分析,智能地生成一份詳盡且易于理解的規(guī)則說明清單。
具體操作流程得以顯著簡化:實施團隊現(xiàn)在只需將客戶提供的Tivoli規(guī)則腳本文件,輸入大模型進行分析,即可快速獲得一份清晰、結構化的規(guī)則邏輯描述文檔?;谶@份文檔,運維人員便可以參照具體的說明,在全棧智能觀測中心友好的可視化界面中高效、準確地完成相應告警規(guī)則的配置。
(Tivoli 導出的規(guī)則腳本清單)
(自動化分析后的腳本說明清單)
04.更多全??捎^測能力
全棧智能觀測中心作為嘉為藍鯨傾力打造的一款全??捎^測產(chǎn)品,經(jīng)過持續(xù)的沉淀和迭代,目前已經(jīng)實現(xiàn)了業(yè)務全棧系統(tǒng)資源監(jiān)控、K8s容器監(jiān)控、云平臺監(jiān)控、硬件設備監(jiān)控、網(wǎng)站服務撥測、日志統(tǒng)一管理、應用性能觀測、業(yè)務場景監(jiān)控、告警閉環(huán)管理等多個領域的可觀測場景。
為了實現(xiàn)上述各種觀測場景的落地,產(chǎn)品設計上結合PaaS+SaaS的理念,抽象各個場景的公共能力,融合成一套底層能力框架,并且能夠和企業(yè)內(nèi)的運維體系工具聯(lián)動集成,支撐上層的場景擴展,以適應企業(yè)不斷變化的可觀測場景和管理訴求。
圖中由下而上,依次是監(jiān)控對象、數(shù)據(jù)集成、數(shù)據(jù)中臺、能力中心、觀測場景五層以及外部集成模塊。
05.結論
總的來說,在國產(chǎn)化替代與云原生轉(zhuǎn)型趨勢下,全棧智能觀測中心憑借一體化云原生架構、全棧端到端可觀測能力及信創(chuàng)生態(tài)支持,全面突破IBM Tivoli因架構陳舊、國產(chǎn)化適配不足、多產(chǎn)品割裂導致的運維瓶頸,助力企業(yè)通過優(yōu)先替換容器監(jiān)控、云平臺監(jiān)控及業(yè)務觀測等Tivoli薄弱環(huán)節(jié),快速實現(xiàn)從“被動救火”到“智能預防”的運維模式升級,為數(shù)字化轉(zhuǎn)型奠定技術基石。
申請演示