當前位置:吉日网官网 - 傳統節日 - it運維解決方案

it運維解決方案

IT運維服務體系建議遵循“易使用、易總結、易管理”的順序,客觀問題由重到輕解決,以最大程度加快IT運維服務體系建設。運維服務體系由運維服務體系、運維服務流程、運維服務機構、運維服務團隊、運維技術服務平臺、運維對象六部分組成,涉及系統、人、技術、對象四個要素。

運維體系是規範運維管理的基本保障,也是流程建立的基礎。運維機構相關人員按照制度要求和標準化流程,采用先進的運維管理平臺,對各類運維對象進行標準化的運行管理和技術操作。

IT故障定位是指對故障的直接原因或根本原因的診斷,故障定位有助於故障恢復行動更加有效。故障定位通常是整個故障過程中最耗時的環節。定位的目標是快速恢復,而不是找到問題的根源,這是問題管理的職責。通常情況下,大部分可用性故障是通過運維專家經驗的假設判斷或已知方案的實施來解決的,但有些故障,尤其是性能、使用邏輯和數據故障,需要多方協作和工具支持。

在數據中心,很多技術運維人員往往具有敏銳的發現已知故障的能力,能夠根據自己遇到的故障迅速找到問題的根源。更有資深專家可以通過系統內部原理,從壹些普遍的故障現象中猜出某壹現象背後可能的原因。根據故障的表象判斷可能的診斷路徑,是壹個運維技術專家必備的能力,往往是通過大量的運維案例積累起來的。這也是專家不同於普通運維人員的地方。準確的數據收集實際上依賴於運維知識。

比如我們要做故障分析,這就需要用到CPU資源,那麽如何收集數據呢?求某段時間內CPU使用率的平均值或最高閾值?CPU利用率100%會有問題嗎?其實沒那麽簡單。事實上,CPU的突然峰值大多是無害的,可能不會對我們的系統產生不良影響。只有當長期CPU利用率接近高水平時,CPU才有可能出現資源不足的瓶頸,從而影響系統的性能。

壹、運行維護處理原則

IT系統運行過程中,難免會出現問題或故障。故障排除的原則可以總結為兩條:

所有措施或方法都以快速恢復業務為優先。

bug或匹配需要及時升級優化。

1.1.恢復業務是當務之急

業務恢復優先級意味著無論在任何情況下出現何種級別的故障,都應該首先恢復業務。這和故障定位不壹樣,很多人會有歧義,認為沒有找到問題的根源,業務怎麽恢復?這裏有壹個簡單的例子:

如果A、B系統調試的使用最後失敗,如何發現問題並解決?

(1)從使用a的服務器Ping使用B的網絡,如果端口和網絡連接,那麽直接綁定服務器B的主機。

(2)排查問題,找出A和B之間會經過哪些鏈路,找出有問題的鏈路,包括跨服務器區域、跨網段等。如HA連接異常,則重啟或擴展並恢復。

通常,第壹種方法需要很短的時間。如果A和B之間有跨機房訪問,那麽第壹種方法需要更長的時間來檢查。雖然破壞了A和B之間的架構平衡,但是可以立即生效,也就是我們所說的優先恢復業務。

1.2.及時升級

這個很好理解。當任何故障發生時,任何人都只能對故障的影響做出簡單的預測,因此有必要及時升級到您的領導,以便他掌握第壹手信息和協調資源

4.大型廠商的安全升級包或設備或升級系統;

二、運維模式

根據運維工作要求和運維響應時間,決定構建完整的運維方案,確定服務標準。現場軟硬件巡視是增強運維計劃執行力的主要途徑。通常情況下,數據中心的運維工作流程如下:

(1)構建完整的運維計劃:在整個運維過程中,計劃是整個工作流程的核心。按照計劃先行的原則,根據本年度工作計劃制定分項工作計劃和時間維度計劃,並按照流程和計劃實施和保障。

(2)現場檢查的重要性:現場檢查計劃是運維工作計劃的重點。通過現場檢查,可以找出系統的薄弱環節、關鍵業務節點和隱患,特別是制定應急預案和備件計劃非常重要。

(3)執行力的重要性:運維計劃的實施是運維工作的重點。運維計劃實施過程中,應嚴格按照流程規範進行運維,並註意控制,降低運維風險。對於運維的實施,應定期向用戶進行反饋。

(4)運維服務標準:簽訂售後服務承諾書,與客戶約定服務水平。承諾的服務水平,包括提供的資源(備件等。)和所提供的方案,應嚴格按協議執行。

三。操作和維護處理方法

第壹,ITIL,尤其是ITIL 4,是新時代國際IT服務標準的最新版本,對於敏感的IT來說也是壹個全新的版本。它包括ITIL V3的特性,並增加了對DevOps等的支持。

其次是敏感的IT運維方法論SRE(Site Reliability Engineering),即互聯網和公有雲的運維服務方法論;

第三,基礎設施即代碼集成了基礎設施自動化流程、運維以及全球最佳實踐和案例。

第四,加強運維與開發的聯系,整合IT服務管理的組織、文化和流程

程與DevOps進行結合。

運行維護服務包括,信息系統相關的網絡設備、安全設備、機房基礎設施、主機設備、操作系統、數據庫和存儲設備及其他信息系統的運行維護與安全防範服務,保證用戶現有的信息系統的正常運行,降低整體管理成本,提高網絡信息系統的整體服務水平。同時根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的保障。

用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型使用軟件(如:數據庫軟件、中間件軟件等)、業務使用軟件等。

故障處理壹般會分為三個階段,故障前,故障中和故障後,故障前是指故障的定位分析,故障中是指故障處理過程,故障後是指故障總結,故障總結很重要。

(壹)從故障服務來看運維處理故障方法

如果從故障服務來看,運維恢復業務最重要的三個方法是: 隔離 重啟 降級

(1)隔離

隔離是指對故障的對象從集群中抽離的過程,目的是讓故障對象不在提供服務,隔離的方法包括以下兩種,按照常用頻率排序:

調整上遊權重為零,如果架構上有自檢測機制,那麽也可以直接停止故障對象的服務,讓上遊健康探測時效。

通過綁定hosts或者配置路由的方式,繞開故障對象。比如智能路由管理域關閉某壹條線路。這裏需要註意的是,防止雪崩效應。

(2)重啟

重啟包括服務重啟和服務器重啟(os重啟)兩種,在發生故障中,任何中涉及到的環節,都可以重啟來完成,重啟的壹般順序是,故障對象>故障對象上遊>故障對象下遊,壹般離故障對象越遠,重啟順序越靠後。

(3)降級

降級是指為了防止產生更大的故障所采取的壹種預案,壹般而言,降級壹定不是當下生產的給用戶的最優狀態,即使沒有技術影響,也會或多或少帶來壹些業務的影響,雖然用戶可以通過其他方式臨時回復壹些業務,但會帶來不好的用戶體驗和壹些用戶影響。

降級不僅僅是運維的事情,要聯合業務研發或者說推動業務研發壹起去實施,因此做任何壹個項目時,首要考慮的不是這個項目能取得多少業績,而是要考慮的是,如果出現異常怎麽辦?

項目如此,核心使用和組件也要如此,作為使用負責人,必須要考慮的是,如果這個對象發生重大故障時,是否有預案可以使用,並且要把這些預案觸發條件,執行人等都要明確下來。

降級,從某種角度來說,是運維的最後保命手段,必須要註意。

上述操作方法,尤其是重啟和隔離有壹個重要的前提,那就是,對象必須是無狀態的,如果需要開發重試,那麽要求必須是冪等的。對象無狀態除非是非常特殊的業務,可以臨時存在外,其余是不可以的,所以生產上對象應該只有三種狀態:

(二)從故障影響方去看運維故障處理方法

首先,故障處理過程中會遇到系統故障所涉及的各個內部或外部組織架構,故障處理壹般需要有以下三類人同時進行:

信息傳遞者:他們的職責是對故障處理,故障定位傳遞有效信息,同時對外部傳遞故障進展信息;

故障定位者:他們的職責是當故障處理者方法失效或者需要查找問題根因時,解決故障;

故障處理者:他們的職責就是盡快恢復業務。

對於IT運維系統來說,這三類人往往不會同時出現,比如在淩晨值班時,只需要故障處理者處理即可,恢復業務後,第二天由故障定位者去找根因及優化措施。

另外,壹個故障發生後,影響方會分為兩類:

(1)內部用戶

內部用戶包括內部使用自身調用問題和內部使用人員發現問題,方法類似外部用戶。

(2)外部用戶

外部用戶的處理會比較麻煩,處理的思路是,如何把外部用戶轉變成內部用戶,比如,壹個供應商打不開公司的網站,這時要做的是有兩個方面:

如果上述兩個方面都不行,那麽就比較麻煩了,這時要收集壹些必要的外部用戶信息才能進行處理,比如出口IP,所用客戶端版本等等,這裏建議收集信息有個模版,壹次性完成,因為外部用戶處理時效往往會花在溝通成本上。

更多相關大咖視頻課程請在蘋果App Store 或各安卓市場下載“技福小咖App”學習。

相關問答:

  • 上一篇:周傑倫的資料是誰的(周傑倫的介紹和資料收集)?
  • 下一篇:“十二五”時期國家文化改革和發展規劃綱要的文化體系
  • copyright 2024吉日网官网