當前,隨著企業數字業務的快速發展和業務量的攀升,企業信息系統架構的升級變遷,以及企業多套業務系統的在線運營,各類監控組件和應用系統間的關系錯綜復雜,系統運維的難度也急劇增加,且面臨著巨大挑戰。
在傳統運維方式下,數據規模大且離散,數據治理和全面分析能力薄弱且依賴於經驗和規則,運維十分被動,解決問題效率非常低下,運維的實用性大打折扣,難以滿足當前主動運營的要求。
具體來說有以下幾點:
發現問題難:企業在經年累月中布局了諸多監控工具,但是監控手段閾值的設定單壹,且壹般都是靜態閾值,而指標和告警的異常卻是多樣化的,這樣就會造成大量的誤報漏報現象。此外,目前絕大多數的監控工具,缺乏趨勢預測能力,使得運維局面非常被動,導致發現問題十分困難。
根因定位難:發現問題時壹般都是對問題進行定性分析,可能了解到某壹告警對應的指標波動是值得關註的,但是並不能因此確定造成這種現象具體根因。而且目前的監控工具,大多缺乏綜合根因定界及定位分析的手段,即便對監控進行了集中管理,也難以通過單純的幾種指標進行根因定位。
數據治理難:當數字化建設進行到壹定程度的時候,被管理對象的數據量相應的也是水漲船高,數據數量大、類別多且非常分散,很難通過某壹指標體系來衡量系統的健康度,也沒有壹個統壹的視角去判斷數據質量的好壞優劣。
運營分析難:現有的大多數基礎監控工具,多數都是從自己的管理閾例如系統管理、網絡管理出發看待問題,缺乏端到端的分析能力,沒辦法以業務視角從綜合運營分析的角度,去看待多樣化指標對系統的影響。
而智能運維是壹種全新的數字化運維能力,也將是數字化轉型的必備能力。智能運維相對於傳統運維模式而言,能夠在運維數據治理、業務數字化風險、運維人力成本和業務側影響力四個方面有本質的效能提升。
智能運維相對於傳統運維模式而言,能夠在四個方面有本質的效能提升:
運維數據治理。通過高性能實時處理的數據平臺廣泛采集、處理和分析數字化業務運行過程中的多樣化運維數據,包括告警、指標、日誌、配置以及運維工單等類別,不僅提升了運維大數據的治理能力,優化了數據質量,而且為進壹步激活運維數據的價值打下了良好基礎;
業務數字化風險。使運維人員不僅提升了歷史運維數據的分析能力並且能夠對實時數據進行異常檢測和問題預判,有效降低數字化業務的運行風險,提升可用性、穩定性;
運維人力成本。使真正意義上的跨域根因定位成為可能,降低對專業運維人員經驗技能的依賴,迅速縮短故障排查時間並有效降低人力成本;
業務側影響力。以業務視角利用多元化數據提高運營分析和決策能力,比如端到端的分析業務交易狀態,提供給業務、客服部門及時反饋和決策支持依據,充分增強業務影響力;
智能運維發展正如火如荼,Gartner預見其為下壹代運維,認為到2022年將有近50%的企業用戶部署智能運維。雖然目前不少企業已經在積極投入建設,也還有壹些企業處在迷茫階段,對這種趨勢不太清晰,借用著名作家威廉吉布森的話,“未來已來,只是分布不均。”