1.事件管理:目標是在服務出現異常時盡快恢復服務,從而保證服務的可用性;同時,深入分析故障原因,對服務中存在的問題進行提升和修復,設計制定相關方案,保證服務故障時的高效止損。這方面的主要工作包括:
2.問題發現:設計開發高效的監控平臺和報警平臺,利用機器學習、大數據分析等方法對系統中的大量監控數據進行匯總分析,在系統異常時快速發現問題,判斷故障的影響。
3.問題處理:設計開發高效的問題處理平臺和工具,能夠在系統異常時快速/自動做出決策並觸發相關止損計劃,快速恢復服務。
擴展數據:
前景
運維涉及的知識和專業知識非常廣泛,對從業人員的素質要求非常高。運維工作在大型互聯網公司越來越重要。隨著互聯網的快速發展,網站規模越來越大,結構越來越復雜,對網站運維工程師的需求會越來越迫切,尤其是有經驗的運維人才,年齡越大越值錢。