如今,許多關(guān)鍵行業(yè)在發(fā)展和運營過程中投入了大量的時間和資源進行培訓和教育,如核工業(yè),軍事和民用航空,甚至是司機,而數(shù)據(jù)中心行業(yè)卻沒有這么多的時間和資源進行培訓。
TiePoint-BKM工程設(shè)備公司運營解決方案總監(jiān)David Boston表示,三分之二的數(shù)據(jù)中心業(yè)務(wù)中斷與其運營流程有關(guān),而不是基礎(chǔ)設(shè)施系統(tǒng)。他說,"大多數(shù)人都意識到流程導致了大部分的停機時間,但很少有人主動全面解決這些問題。這對我們的行業(yè)來說有點獨特。" Boston計劃在7月12日在芝加哥藝術(shù)學院的數(shù)據(jù)中心世界會議上闡述防止數(shù)據(jù)中心中斷的策略。
他建議,數(shù)據(jù)中心管理層經(jīng)常被迫更換老化的基礎(chǔ)設(shè)施系統(tǒng)和組件,或引起重復(fù)問題的系統(tǒng),并且習慣于增加系統(tǒng)容量以適應(yīng)負載增長。在基礎(chǔ)設(shè)施方面,冷卻系統(tǒng)中的機械故障是發(fā)生最多的故障,但電氣系統(tǒng)故障卻導致更多的停機事件,因為在這么短的時間很難作出迅速的反應(yīng)。
他說,"這些努力都需要得到外界的工程支持,所以管理所需要的時間通常只限于項目的確定和監(jiān)督。"雖然開發(fā)過程與數(shù)據(jù)中心中斷的最常見的原因可能是更加費時的管理,但確實需要花費大量的時間。以下是Boston推薦的三大問題和最佳實踐:
1. 設(shè)施的工作人員數(shù)量和輪班與目標的關(guān)鍵操作正常運行時間未能匹配。
最佳實踐:量化高級IT管理人員的正常運行時間目標,確保人員匹配。Boston建議每班輪班兩人,其他人員負責培訓和程序項目。如果需要最大的正常運行時間,則只能在偶然的停機事件可接受的情況下才使用全天值班。
2.沒有具體的培訓計劃,包括設(shè)施開始運營前的專業(yè)練習時間。
最佳實踐:指派一個團隊成員作為培訓項目的管理人員,并及時協(xié)調(diào)所有團隊成員的每月應(yīng)急反應(yīng)培訓。通過實踐操作來輪換每個團隊成員,在維護活動之前隔離基礎(chǔ)架構(gòu)系統(tǒng),并在預(yù)防性維護日歷上標注活動,將系統(tǒng)恢復(fù)到服務(wù)狀態(tài)。
3.不了解具體程序不足。
最佳實踐:指派一個團隊成員作為程序的所有者,隨時隨地開發(fā)(或與顧問合作開發(fā))幾乎每個關(guān)鍵設(shè)施所需的100到200個關(guān)鍵程序。每一個都確認其技術(shù)準確性和驗證,所有的程序都要讓團隊中最不知情的人都清楚地了解。
Boston評論道:"我一直懷疑,許多公司起初都不愿意花費時間實施上述方案。
組織絕對應(yīng)該在關(guān)鍵業(yè)務(wù)方面實施這些流程,而這些流程是對組織的收入或信譽造成負面影響的流程。然而,對于非關(guān)鍵業(yè)務(wù),他建議可以采取快速恢復(fù)的方法。
來源:中國IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機柜租用 石家莊機房 |