在很多IT組織中,大家工作的重點往往專注于解決事件,但長期專注于此,會出現(xiàn)疲于應(yīng)對的現(xiàn)象,例如事件數(shù)量居高不下,工程師焦頭爛額疲于奔命。長此以往會使問題的數(shù)量持續(xù)增加,持續(xù)未解決的根本原因會導(dǎo)致更多事件。如果IT組織希望有效開展問題管理流程,同時兼顧事件管理,那在兩者之間需要找到平衡點。
01. 問題管理如何發(fā)揮作用
問題管理的唯一目標是識別并消除重復(fù)發(fā)生事件的根本原因。在無法預(yù)防事件的情況下,問題管理力求將發(fā)生的事件對業(yè)務(wù)的影響降至最低。
如果只關(guān)注“如何快速找到問題并恢復(fù)服務(wù)”,那并沒有進行問題管理,而是進行了事件管理,事件管理的核心目標是快速恢復(fù)服務(wù)。而問題管理是一個完全不同的流程,主要分為被動式和主動式兩種類型。
1)被動式問題管理
被動式問題管理是從事件中被動觸發(fā)的,許多IT組織會對重大事件進行事后審查,當(dāng)發(fā)現(xiàn)存在潛在問題時,就會開展被動式問題管理工作。
2)主動式問題管理
主動式問題管理是使用數(shù)據(jù)趨勢和歷史信息識別潛在的問題,可以是持續(xù)開展服務(wù)改進的活動,也可以是適當(dāng)?shù)厥褂脭?shù)據(jù)進行分析,甚至簡單依靠積累的經(jīng)驗和直覺。
無論是哪種方式,問題管理都需要根據(jù)對業(yè)務(wù)的價值定義優(yōu)先級。例如使用“業(yè)務(wù)影響分析”等方法,可以識別出優(yōu)先解決哪些問題可以給業(yè)務(wù)帶來更高的價值。
02. 不同規(guī)模的組織如何構(gòu)建問題管理
IT組織構(gòu)建問題管理應(yīng)根據(jù)IT組織的規(guī)模大小進行區(qū)別化設(shè)計,確定一個IT組織問題管理流程的模式應(yīng)該考慮以下幾個因素:
如果無法有效衡量,可以參考以下內(nèi)容:
1)小型組織的問題管理
小型組織的問題管理通常不單獨設(shè)置流程經(jīng)理,主要通過定期的例會討論問題管理相關(guān)的內(nèi)容。會前,建議各領(lǐng)域的負責(zé)人基于上一周期的工作記錄,歸納匯總各自領(lǐng)域內(nèi)最為關(guān)鍵的幾個問題,并將這些問題在會上討論并確定后,在下一個周期進行調(diào)查處理和解決。
2)中大型組織的問題管理
在中大型組織中,涉及的業(yè)務(wù)領(lǐng)域較多,通常采取統(tǒng)一的問題管理模式,在這種模式下,重點在于找出解決方案并實施。主動性問題管理通常會定義問題來源的多種方式,例如,在某個特定階段,頻繁觸發(fā)的監(jiān)控告警、用戶頻繁反饋的重復(fù)事件或重大事件、日常巡檢中發(fā)現(xiàn)的潛在問題,以及偶然間發(fā)現(xiàn)的業(yè)務(wù)流程或服務(wù)中的關(guān)鍵缺陷。這種模式下,通常會由問題經(jīng)理進行定期收集、匯總、協(xié)調(diào)解決和跟蹤。
除了以上提到的問題構(gòu)建方式以外,在日常運營中,還應(yīng)該注意以下細節(jié):
03. 如何做好問題管理
1)區(qū)分事件和問題以及管理職責(zé)
在前邊的內(nèi)容中提到,事件和問題管理的目標并不相同,事件管理的重點是及時處理事件恢復(fù)服務(wù);而問題管理則更側(cè)重于預(yù)防性的措施,旨在識別和消除可能導(dǎo)致事件或其他不利影響的潛在問題。通過清晰地區(qū)分這兩者,IT團隊可以轉(zhuǎn)變其工作模式,從被動地應(yīng)對突發(fā)狀況,轉(zhuǎn)變?yōu)榉e極主動地尋找并消除潛在的風(fēng)險隱患,從而提升整體的服務(wù)質(zhì)量和穩(wěn)定性。
同樣對于事件經(jīng)理來說,重點是快速解決事件,而問題經(jīng)理的目標是預(yù)防。通過結(jié)合這兩個角色的共同努力,可以從根本上提升應(yīng)用系統(tǒng)的連續(xù)性和可用性。
2)充分分析問題
問題的分析方法有很多種,組織可以考慮在不同的場景下使用不同的方法,達到快速有效的問題分析。以下是在不同場景下的分析工具:
3)以結(jié)果為導(dǎo)向
許多IT組織在問題管理活動中往往過于關(guān)注問題的數(shù)量和解決時間,然而這些并非衡量問題管理成效的核心標準。真正有效的問題管理應(yīng)當(dāng)通過兩個關(guān)鍵維度來衡量:一是問題管理的關(guān)鍵績效指標,二是問題管理對業(yè)務(wù)運營的實際影響。可以參考以下示例:
4)發(fā)揮已知錯誤數(shù)據(jù)庫的作用
這一觀點也是知識管理的建議,為不同的團隊提供問題的已知錯誤數(shù)據(jù)庫的權(quán)限,以及相關(guān)的解決方案。這種方式可以讓團隊之間相互學(xué)習(xí),節(jié)省事件和問題的處理時間,讓整個組織保持高效運行。
03. 結(jié)語
通過實施有效的問題管理,IT組織不僅可以從根本上解決反復(fù)出現(xiàn)的事件,還能顯著提升服務(wù)的穩(wěn)定性和客戶滿意度。區(qū)分事件管理和問題管理的職責(zé),利用適當(dāng)?shù)姆治龉ぞ?,如頭腦風(fēng)暴、5WHY和魚骨圖,可以更快速地找到問題根源并采取有效的預(yù)防措施。定期審查和利用已知錯誤數(shù)據(jù)庫,進一步增強問題管理的效果。最終,問題管理的目標是通過持續(xù)改進,實現(xiàn)IT服務(wù)的高效、可靠和可持續(xù)性。
CMDB治理:CMDB數(shù)據(jù)消費與應(yīng)用指南
查看詳細
1分鐘解鎖開箱即用價值流:研發(fā)效率飆升實戰(zhàn)指南
查看詳細
CCI持續(xù)集成平臺:高效集成K8s集群,流水線容器構(gòu)建集群上線
查看詳細
嘉為藍鯨CCI持續(xù)集成平臺:Matrix Job 帶你開啟流水線編排 2.0 時代
查看詳細
告警管理:如何從零散事件中挖出關(guān)鍵信息
查看詳細
嘉為藍鯨CPack制品庫:全新ML模型管理功能,助力AI交付與企業(yè)級DevOps實踐無縫結(jié)合
查看詳細
申請演示