就在國內(nèi)的人們互道“過年好”之際,國外的Gitlab(開源git倉庫管理平臺)出大事了。
Gitlab.com平臺因為其某位運維同學(xué)誤刪了數(shù)據(jù)而導(dǎo)致整個網(wǎng)站下線。經(jīng)歷了千辛萬苦,其整個數(shù)據(jù)恢復(fù)過程近兩天才完成,期間 Gitlab還在Youtube上直播了整個數(shù)據(jù)恢復(fù)過程。根據(jù)官方對整個事情的描述,大概可以推斷Gitlab使用的是故障發(fā)生前6個小時的備份數(shù)據(jù),也就是說這6個小時時間之內(nèi)的數(shù)據(jù)最終還是丟失了。
這個事件看似是一個極低級的錯誤,暴露的卻是自動化運維能力弱和流程不規(guī)范的大問題。
關(guān)注一:讓運維自動化
自動化運維所能實現(xiàn)的不僅僅是通過技術(shù)和工具減少人工的參與成本,而是將人、流程和運維產(chǎn)品相結(jié)合,最終做到提高運維效率,最大限度減少類似Gitlab事件的發(fā)生。
在日常的IT運維工作中有大量的重復(fù)性工作,小到簡單的日常巡檢、配置和變更,大到產(chǎn)品的發(fā)布、流程的組織調(diào)度,都需要自動化操作,從而減少乃至消除運維中的延遲和事故。簡單地說,IT運維自動化是將事件與IT流程相關(guān)聯(lián),一旦被監(jiān)控對象發(fā)生性能超標或故障,會觸發(fā)相關(guān)事件以及事先定義好的流程,可自動啟動故障響應(yīng)和恢復(fù)機制。
比如監(jiān)控易平臺(jiankongyi.com)可幫助IT運維人員完成日常的重復(fù)性工作,提高IT運維效率。同時,監(jiān)控易還能預(yù)測故障、在故障發(fā)生前就發(fā)出預(yù)警,通過精準有效的告警策略,讓IT運維人員把故障消除在發(fā)生前。監(jiān)控易可以根據(jù)故障類型和影響級別及時觸發(fā)工單流程,并可根據(jù)SLA進行事件升級,讓運維有序高效進行。
關(guān)注二:管好服務(wù)流程
如果說運維技術(shù)能夠發(fā)現(xiàn)問題、處理事件、保障系統(tǒng)運行,流程管理則是分配資源和人力,優(yōu)化流程,遇故障時盡快恢復(fù)系統(tǒng),做到未雨綢繆。
在此次Gitlab事件中,最令人不解的是運維人員在故障處置過程中,沒有經(jīng)過變更管理流程,以及必要的授權(quán)、評估和測試,就直接在生產(chǎn)環(huán)境上進行了實驗性的操作,并且執(zhí)行的還是刪除數(shù)據(jù)庫目錄這樣的高危操作。
正如ITIL所描述的,變更發(fā)布管理之所以重要和優(yōu)秀,是因為其往往會經(jīng)過多個控制環(huán)節(jié),以確保變更的成功,包括對變更申請、授權(quán)、評估、測試、審批、發(fā)布等一系列流程的管理,以確保生產(chǎn)環(huán)境的變更安全有效。
IT運維管體系涉及到多個相互獨立又彼此關(guān)聯(lián)的服務(wù)流程,如果能將這些現(xiàn)有的應(yīng)用管理系統(tǒng)以及企業(yè)內(nèi)部、外部系統(tǒng)及流程的接口整合銜接,建立標準的流程體系和統(tǒng)一的管理平臺,從而實現(xiàn)服務(wù)關(guān)系級別的管理。
服務(wù)關(guān)系管理是一個企業(yè)提高運營效率、實現(xiàn)數(shù)字化運營的保障,通過對服務(wù)關(guān)系的優(yōu)化改進、大數(shù)據(jù)分析,建立起強大的服務(wù)保障體系;通過數(shù)據(jù)展現(xiàn)業(yè)務(wù)與經(jīng)營、收入與支出、效率與效果等各方面、多維度的運營分析,全面為企業(yè)決策提供充分可靠的依據(jù)。
服務(wù)魔方(fuwumofang.com)的服務(wù)關(guān)系管理,立足于對服務(wù)的質(zhì)量監(jiān)控、服務(wù)流程的優(yōu)化梳理、服務(wù)關(guān)系的價值發(fā)掘。通過服務(wù)魔方的商業(yè)價值分析,能夠讓企業(yè)將進銷存與各部門、各業(yè)務(wù)流建立關(guān)聯(lián),打通信息孤島、共享數(shù)據(jù),時刻掌握業(yè)務(wù)數(shù)據(jù)變化,清晰了解發(fā)展趨勢,為運營決策提供及時準確的數(shù)據(jù)和方法支撐。
來源:機房360
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機柜租用 石家莊機房