大多數(shù)人在生活或工作領(lǐng)域中都不希望出現(xiàn)連接中斷的情況,尤其是在以數(shù)字生活方式為主的今天,所以數(shù)據(jù)中心基礎(chǔ)設(shè)施變得越來越重要。對(duì)于許多消費(fèi)者來說,他們希望自己的數(shù)字產(chǎn)品和服務(wù)能保持正常工作,所以當(dāng)發(fā)生宕機(jī)事件時(shí),他們就會(huì)開始抱怨甚至投訴。
以最近的航空數(shù)據(jù)中心宕機(jī)事件為例,如美國(guó)達(dá)美航空、西南航空和英國(guó)航空公司,由于一個(gè)簡(jiǎn)單的電氣故障或不當(dāng)?shù)木S修程序,導(dǎo)致服務(wù)器遭到災(zāi)難性損壞,航空公司損失數(shù)億美元,數(shù)以萬計(jì)的乘客被滯留在全球各地的機(jī)場(chǎng)。
這些大規(guī)模的宕機(jī)事件總能成為新聞?lì)^條,而且數(shù)據(jù)中心宕機(jī)事件比人們想象的更為常見。根據(jù)Uptime Institute調(diào)查顯示,25%的受訪企業(yè)在過去一年內(nèi)都發(fā)生了數(shù)據(jù)中心宕機(jī)事件,無論是在自己的數(shù)據(jù)中心還是在服務(wù)提供商的網(wǎng)站上。此外,90%的數(shù)據(jù)中心和IT專業(yè)人士表示,他們的企業(yè)管理人員比一年前更加關(guān)注數(shù)據(jù)中心中斷事件。
然而,并不是每次宕機(jī)事件與航空公司停運(yùn)事件一樣具有破壞性或公開性,但是宕機(jī)事件會(huì)對(duì)企業(yè)造成一定的經(jīng)濟(jì)損失。根據(jù)Uptime Institute的調(diào)查表明,只有60%的企業(yè)會(huì)測(cè)量停機(jī)成本來作為其業(yè)務(wù)指標(biāo),而在2017年,測(cè)量停機(jī)成本成為了所有企業(yè)都必須采取的措施?紤]到幾分鐘或幾小時(shí)的停機(jī)可能帶來的經(jīng)濟(jì)損失,IT專業(yè)人員和設(shè)施管理人員將會(huì)更加注重基礎(chǔ)設(shè)施的維護(hù)。
當(dāng)然,意識(shí)到數(shù)據(jù)中心的風(fēng)險(xiǎn)與采取措施預(yù)測(cè)潛在的風(fēng)險(xiǎn),這是兩個(gè)截然不同的問題。那么,企業(yè)該如何做才能降低數(shù)據(jù)中心宕機(jī)事件的影響呢?
效率的定義
每個(gè)數(shù)據(jù)中心管理人員都希望他們的數(shù)據(jù)中心能夠高效運(yùn)營(yíng)。效率是指提供給數(shù)據(jù)中心IT設(shè)備的電源和冷卻措施能夠滿足IT需求且不會(huì)產(chǎn)生不必要的成本。從更加商業(yè)的角度來看,數(shù)據(jù)中心必須能夠在滿足業(yè)務(wù)需求的同時(shí)保持這種平衡。這意味著數(shù)據(jù)中心的基礎(chǔ)設(shè)施,計(jì)算能力和性能需要經(jīng)常有效地?cái)U(kuò)展,以降低停機(jī)的風(fēng)險(xiǎn)。
然而,對(duì)于現(xiàn)在大多數(shù)的數(shù)據(jù)中心來說,缺少考慮數(shù)據(jù)中心環(huán)境變化帶來的影響,如推出的新技術(shù),這些都沒被考慮在內(nèi)。對(duì)于IT團(tuán)隊(duì)來說,除了知道他們部署將使用的數(shù)量,空間,網(wǎng)絡(luò)和電源之外 ,他們對(duì)數(shù)據(jù)中心環(huán)境的影響往往不了解甚至不關(guān)心,這是數(shù)據(jù)中心管理人員的責(zé)任,如果IT配置對(duì)IT的有效性產(chǎn)生了負(fù)面影響,那么管理人員將會(huì)立即作出反應(yīng)。問題在于IT團(tuán)隊(duì)和數(shù)據(jù)中心管理人員這兩個(gè)團(tuán)隊(duì)是獨(dú)立運(yùn)作的,許多企業(yè)已經(jīng)部署了DCIM技術(shù),其目的是通過數(shù)據(jù)中心的業(yè)務(wù)來縮小數(shù)據(jù)和處理流程之間的差距。
模擬每種事件的可能性
從機(jī)架上安裝單個(gè)擋板到將設(shè)備的功率提高到300kW,如果能夠準(zhǔn)確預(yù)測(cè)這中間的所有變化,那么將會(huì)影響數(shù)據(jù)中心的彈性。這不是想象的而是實(shí)際存在的,它采取工程仿真的形式,允許數(shù)據(jù)中心設(shè)施管理人員通過創(chuàng)建虛擬原型,對(duì)現(xiàn)有設(shè)計(jì)進(jìn)行故障排除,以及分析未來數(shù)據(jù)中心配置的假設(shè)場(chǎng)景,并且可以在離線環(huán)境中進(jìn)行實(shí)驗(yàn)。
這意味著當(dāng)業(yè)務(wù)需求涌入時(shí),數(shù)據(jù)中心能夠以絕對(duì)的彈性處理工作負(fù)載,或者可以減少這些要求,直到基礎(chǔ)設(shè)施升級(jí)完成。數(shù)據(jù)中心人員應(yīng)該積極應(yīng)對(duì)這種變化,這樣可以杜絕停機(jī)事件發(fā)生,或?qū)⑵錅p輕到無害水平。
從運(yùn)營(yíng)連續(xù)性的角度來看,還可以模擬運(yùn)行其他事件,例如,如果電源故障啟動(dòng)并且由備份電池在供電,那么任何關(guān)鍵系統(tǒng)能夠脫機(jī)嗎?在重新啟動(dòng)電源系統(tǒng)時(shí),工程師如果沒有遵循正確的協(xié)議,會(huì)對(duì)數(shù)據(jù)中心產(chǎn)生不利影響嗎?如果是這樣的話,怎樣才能減輕造成的損失呢?所有這些問題和更多的問題都可以通過仿真來解決,幫助數(shù)據(jù)中心管理人員創(chuàng)建戰(zhàn)略,使關(guān)鍵硬件能夠以這樣的方式進(jìn)行定位,以確保其堅(jiān)持到最后。
如果90%的數(shù)據(jù)中心和IT專業(yè)人士說,他們的企業(yè)管理人員比一年前更擔(dān)心宕機(jī)事件發(fā)生,那么運(yùn)營(yíng)彈性則是IT團(tuán)隊(duì)和數(shù)據(jù)中心設(shè)施管理人員最應(yīng)該考慮的事情,而運(yùn)營(yíng)彈性通過上面提到的策略和工具就可以實(shí)現(xiàn)。
至于其他10%的管理層,難道他們對(duì)數(shù)據(jù)中心宕機(jī)事件不關(guān)心?如果他們的團(tuán)隊(duì)盡了一切努力去防止宕機(jī)事件發(fā)生,但結(jié)果還是發(fā)生了的時(shí)候,他們將會(huì)很快改變想法,因?yàn)樗麄兞私膺@將會(huì)對(duì)公司聲譽(yù)造成多大的影響,并且這也是其業(yè)務(wù)運(yùn)營(yíng)的底線。
來源:中國(guó)IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機(jī)柜租用 石家莊機(jī)房 |