比如壹家城商行,目前最大的問題可能只是監控效率低,誤報漏報多。我們可以從集中告警入手,用算法降低噪聲,然後在相關告警中尋找有效的告警場景,篩選出最有可能影響業務問題的告警。提高告警處理效率後,通過分析告警來源,進壹步解決了監控指標靜態閾值設置不準確的問題,代之以智能異常檢測,從根本上提高了監控效率。這就是以場景化的方式引入智能運維的方式。
智能運維建設可以根據用戶實際運維情況同步分步進行。青創根據以往的經驗,總結出了三原則六步驟的最佳實踐方案。可以先通過集中監控的智能化改造、指標監控的智能化改造、日誌異常檢測的智能化改造(彌補監控手段的不足)來提高實時數據處理能力,再通過智能故障排查(根源分析和定位)、智能知識管理(知識圖譜)、故障自愈來提高事後的數據分析和處理能力。
對於壹些公司來說,運維成熟度不夠高,可以考慮智能運維?
運維成熟度高的企業可以根據數據處理能力的維度進行統壹規劃、分層實施,實現運維數據從本地集中到跨域集中,即先建立運維大數據平臺,加強數據治理,優化數據質量,再過渡到基於算法的統計分析甚至實時流處理,構建多樣化的智能運維場景,實現逐層智能運維能力建設。
但是,這種方法並不是普遍適用的。對於成熟度不高的企業來說,迫切需要解決實際的運維問題,智能運維這個時候應該是解決實際問題的工具。它可以根據客戶目前的運維成熟度選擇具體的應用場景,根據不同的路線圖進行構建。這才是智能運維應有的能力。智能運維的本質是逐步提高運維數據的分析處理能力。