就在國(guó)內(nèi)的人們互道“過(guò)年好”之際,國(guó)外的Gitlab(開(kāi)源git倉(cāng)庫(kù)管理平臺(tái))出大事了。
Gitlab.com平臺(tái)因?yàn)槠淠澄贿\(yùn)維同學(xué)誤刪了數(shù)據(jù)而導(dǎo)致整個(gè)網(wǎng)站下線。經(jīng)歷了千辛萬(wàn)苦,其整個(gè)數(shù)據(jù)恢復(fù)過(guò)程近兩天才完成,期間 Gitlab還在Youtube上直播了整個(gè)數(shù)據(jù)恢復(fù)過(guò)程。根據(jù)官方對(duì)整個(gè)事情的描述,大概可以推斷Gitlab使用的是故障發(fā)生前6個(gè)小時(shí)的備份數(shù)據(jù),也就是說(shuō)這6個(gè)小時(shí)時(shí)間之內(nèi)的數(shù)據(jù)最終還是丟失了。
這個(gè)事件看似是一個(gè)極低級(jí)的錯(cuò)誤,暴露的卻是自動(dòng)化運(yùn)維能力弱和流程不規(guī)范的大問(wèn)題。
關(guān)注一:讓運(yùn)維自動(dòng)化
自動(dòng)化運(yùn)維所能實(shí)現(xiàn)的不僅僅是通過(guò)技術(shù)和工具減少人工的參與成本,而是將人、流程和運(yùn)維產(chǎn)品相結(jié)合,最終做到提高運(yùn)維效率,最大限度減少類(lèi)似Gitlab事件的發(fā)生。
在日常的IT運(yùn)維工作中有大量的重復(fù)性工作,小到簡(jiǎn)單的日常巡檢、配置和變更,大到產(chǎn)品的發(fā)布、流程的組織調(diào)度,都需要自動(dòng)化操作,從而減少乃至消除運(yùn)維中的延遲和事故。簡(jiǎn)單地說(shuō),IT運(yùn)維自動(dòng)化是將事件與IT流程相關(guān)聯(lián),一旦被監(jiān)控對(duì)象發(fā)生性能超標(biāo)或故障,會(huì)觸發(fā)相關(guān)事件以及事先定義好的流程,可自動(dòng)啟動(dòng)故障響應(yīng)和恢復(fù)機(jī)制。
比如監(jiān)控易平臺(tái)(jiankongyi.com)可幫助IT運(yùn)維人員完成日常的重復(fù)性工作,提高IT運(yùn)維效率。同時(shí),監(jiān)控易還能預(yù)測(cè)故障、在故障發(fā)生前就發(fā)出預(yù)警,通過(guò)精準(zhǔn)有效的告警策略,讓IT運(yùn)維人員把故障消除在發(fā)生前。監(jiān)控易可以根據(jù)故障類(lèi)型和影響級(jí)別及時(shí)觸發(fā)工單流程,并可根據(jù)SLA進(jìn)行事件升級(jí),讓運(yùn)維有序高效進(jìn)行。
關(guān)注二:管好服務(wù)流程
如果說(shuō)運(yùn)維技術(shù)能夠發(fā)現(xiàn)問(wèn)題、處理事件、保障系統(tǒng)運(yùn)行,流程管理則是分配資源和人力,優(yōu)化流程,遇故障時(shí)盡快恢復(fù)系統(tǒng),做到未雨綢繆。
在此次Gitlab事件中,最令人不解的是運(yùn)維人員在故障處置過(guò)程中,沒(méi)有經(jīng)過(guò)變更管理流程,以及必要的授權(quán)、評(píng)估和測(cè)試,就直接在生產(chǎn)環(huán)境上進(jìn)行了實(shí)驗(yàn)性的操作,并且執(zhí)行的還是刪除數(shù)據(jù)庫(kù)目錄這樣的高危操作。
正如ITIL所描述的,變更發(fā)布管理之所以重要和優(yōu)秀,是因?yàn)槠渫鶗?huì)經(jīng)過(guò)多個(gè)控制環(huán)節(jié),以確保變更的成功,包括對(duì)變更申請(qǐng)、授權(quán)、評(píng)估、測(cè)試、審批、發(fā)布等一系列流程的管理,以確保生產(chǎn)環(huán)境的變更安全有效。
IT運(yùn)維管體系涉及到多個(gè)相互獨(dú)立又彼此關(guān)聯(lián)的服務(wù)流程,如果能將這些現(xiàn)有的應(yīng)用管理系統(tǒng)以及企業(yè)內(nèi)部、外部系統(tǒng)及流程的接口整合銜接,建立標(biāo)準(zhǔn)的流程體系和統(tǒng)一的管理平臺(tái),從而實(shí)現(xiàn)服務(wù)關(guān)系級(jí)別的管理。
服務(wù)關(guān)系管理是一個(gè)企業(yè)提高運(yùn)營(yíng)效率、實(shí)現(xiàn)數(shù)字化運(yùn)營(yíng)的保障,通過(guò)對(duì)服務(wù)關(guān)系的優(yōu)化改進(jìn)、大數(shù)據(jù)分析,建立起強(qiáng)大的服務(wù)保障體系;通過(guò)數(shù)據(jù)展現(xiàn)業(yè)務(wù)與經(jīng)營(yíng)、收入與支出、效率與效果等各方面、多維度的運(yùn)營(yíng)分析,全面為企業(yè)決策提供充分可靠的依據(jù)。
服務(wù)魔方(fuwumofang.com)的服務(wù)關(guān)系管理,立足于對(duì)服務(wù)的質(zhì)量監(jiān)控、服務(wù)流程的優(yōu)化梳理、服務(wù)關(guān)系的價(jià)值發(fā)掘。通過(guò)服務(wù)魔方的商業(yè)價(jià)值分析,能夠讓企業(yè)將進(jìn)銷(xiāo)存與各部門(mén)、各業(yè)務(wù)流建立關(guān)聯(lián),打通信息孤島、共享數(shù)據(jù),時(shí)刻掌握業(yè)務(wù)數(shù)據(jù)變化,清晰了解發(fā)展趨勢(shì),為運(yùn)營(yíng)決策提供及時(shí)準(zhǔn)確的數(shù)據(jù)和方法支撐。
- QQ:61149512