6月17日下午16點(diǎn)30分左右開始,新浪微博經(jīng)歷了“黑色一小時”,幾乎全平臺癱瘓,微博CIO王巍在事后回應(yīng)稱,這次故障的原因是“外部機(jī)房整層掉電”。作為業(yè)內(nèi)人士,很難想象,支撐著上億用戶的新浪微博數(shù)據(jù)中心會出現(xiàn)因電力保障問題而宕機(jī)的事故。
對此,中國IDC圈第一時間聯(lián)系到擁有20多年數(shù)據(jù)中心建設(shè)運(yùn)維搶修經(jīng)驗(yàn)的資深專家張洋,請他分析一下此次新浪微博機(jī)房斷電宕機(jī)的可能原因。
1.人為原因方面——互鎖機(jī)制流程是否順暢?值班狀態(tài)有待確認(rèn)
“武裝到牙齒的現(xiàn)代化部隊(duì),也可能存在管理漏洞,在某種情形下,被‘?dāng)橙恕p易攻陷。自動化程度很高的數(shù)據(jù)中心,在運(yùn)營維護(hù)上的一點(diǎn)小瑕疵,就可能導(dǎo)致整個數(shù)據(jù)中心宕機(jī)。新浪微博機(jī)房掉電宕機(jī),有可能是設(shè)計(jì)上存在問題,但更大的可能,則是運(yùn)行維護(hù)時人為因素造成!痹陔娫捓,張洋開門見山,認(rèn)為人為原因可能性最大。
張洋向中國IDC圈記者分析說,即使數(shù)據(jù)中心有雙路市電的保障,但如果一路市電失電,配電系統(tǒng)互鎖機(jī)制方面出現(xiàn)問題,那么所謂雙路市電只是形同虛設(shè)。正常情況下,一路市電斷電,UPS將自動啟用,隨后另一路市電及時切入。所謂互鎖機(jī)制,就是為了防止人為誤操作造成兩路市電之間發(fā)生短路的保障機(jī)制。
新浪微博機(jī)房這種等級的機(jī)房,一般只有兩路市電都中斷,才會啟用發(fā)電機(jī)。如果一路市電斷電時,值班人員或電力運(yùn)維工程師技術(shù)能力有限,或由于其他原因應(yīng)對不足,則可能直至UPS電力耗盡,仍未能切入另一路市電,最終造成數(shù)據(jù)中心電力中斷。
張洋說,通常情況下,市電中斷后,UPS自動啟用,一般可以維持?jǐn)?shù)據(jù)中心繼續(xù)運(yùn)行10分鐘以上,在這期間,系統(tǒng)會發(fā)出報(bào)警警示,如果技術(shù)人員沒有及時注意到系統(tǒng)報(bào)警,就可能造成另一路市電未能及時切入,或發(fā)電機(jī)未能及時啟動,造成掉電宕機(jī)。是否存在這樣的情況,還有該數(shù)據(jù)中心下一步披露的調(diào)查結(jié)論。
2.機(jī)房設(shè)計(jì)方面——辦公區(qū)是否為普通市電?雙路市電真?zhèn)未?/STRONG>
張洋認(rèn)為,還有一種可能,就是設(shè)計(jì)上的瑕疵。如果機(jī)房運(yùn)行維護(hù)辦公區(qū)也使用普通市電供電。市電斷電時,電腦、辦公系統(tǒng)全部失靈,工作人員之間無法交流、操控,數(shù)據(jù)中心就會全面癱瘓,報(bào)警信息無法及時處理,值班搶修人員無法及時到崗開展應(yīng)急工作,最終導(dǎo)致數(shù)據(jù)中心掉電宕機(jī)。
在設(shè)計(jì)上,大型數(shù)據(jù)中心對每年斷電時間、頻率有著非常嚴(yán)格的要求,比一般的工業(yè)用電要求供電等級更高,而且還需要雙路以上(最高等級要求四路)來源于不同區(qū)域、不同變電站的市電接入,更高一級要求上兩級電力接入不允許是同一路變電站或者供電回路。
“如果不是數(shù)據(jù)中心場地高壓開關(guān)房及周邊事故,一般不會出現(xiàn)兩路市電同時停電的情況。但如果兩路市電同屬一個上級電站,那么,當(dāng)該變電站出現(xiàn)問題時,所謂的‘雙路市電’會同時中斷,這也就是業(yè)內(nèi)所說的‘偽雙路市電’。”張洋向中國IDC圈強(qiáng)調(diào)。
3.回應(yīng)網(wǎng)友猜測——發(fā)電機(jī)故障可能性很低 高溫天氣無需背鍋
針對一些網(wǎng)友提出的“發(fā)電機(jī)故障或機(jī)房方面為降低成本而延遲發(fā)動機(jī)啟用”的猜測,張洋認(rèn)為可能性不大。
張洋告訴中國IDC圈,對于新浪微博機(jī)房這種高等級機(jī)房來說,往往都是多臺發(fā)電機(jī)并機(jī)運(yùn)行,發(fā)電機(jī)采用N+1配置,即使一臺發(fā)電機(jī)故障,也可以完全滿足系統(tǒng)正常運(yùn)行。一般情況下,發(fā)動機(jī)啟動運(yùn)行1分鐘內(nèi),就能正常供電,保障數(shù)據(jù)中心的運(yùn)行。啟動發(fā)動機(jī)的成本并不高,只需要燃油方面的花費(fèi)。即使電力供應(yīng)正常,數(shù)據(jù)中心每個月都要啟動發(fā)電機(jī)至少一次,每次加載運(yùn)行不低于十五分鐘,使發(fā)電機(jī)內(nèi)部潤滑等部件保持狀態(tài)良好,可以隨時投入應(yīng)急使用。
還有網(wǎng)友猜測,近期北京氣溫上升過高,達(dá)到歷史同期最高水平,炎熱天氣會增加數(shù)據(jù)中心負(fù)荷,導(dǎo)致宕機(jī)概率上升。張洋認(rèn)為,該種猜測也不正確。
張洋說,天氣炎熱,室外溫度上升,在IT負(fù)載方面不會有任何變化,變化的就是空調(diào)部分的制冷效率。溫度上升,導(dǎo)致室外冷凝器的熱交換溫差降低,進(jìn)而降低冷凝器熱轉(zhuǎn)化效率,使數(shù)據(jù)中心PUE值上漲。
一般的數(shù)據(jù)中心PUE會在1.5至2.0之間,這主要就是冬季夏季因氣溫引起的制冷供電功率的變化,數(shù)據(jù)中心用電設(shè)計(jì)都會保留最大用電負(fù)荷的冗余設(shè)計(jì),所以溫度高了,只會影響到用電成本的增加,不會因此宕機(jī)。
發(fā)電機(jī)啟動一分鐘后,就能發(fā)電供數(shù)據(jù)中心機(jī)房使用,為什么這次此次新浪微博宕機(jī)時間卻長達(dá)一個多小時?
張洋解釋說,掉電后,發(fā)電機(jī)一分鐘發(fā)電供電是沒問題的,但如果數(shù)據(jù)中心路由器、核心交換機(jī)部分沒有配備機(jī)柜內(nèi)備用UPS的話,掉電恢復(fù)時間可能從三五分鐘達(dá)到乃至十幾分鐘,抑或需要從根本上人工重新恢復(fù)數(shù)據(jù)再運(yùn)行。一般的服務(wù)器都會設(shè)置掉電重啟,這個重啟時間也會從三五分鐘至十幾分鐘不等。如果部分服務(wù)器因掉電引起數(shù)據(jù)丟失、損壞,而需要通過其他手段進(jìn)行恢復(fù)才能運(yùn)行,就需要更長的時間了。
來源:中國IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機(jī)柜租用 石家莊機(jī)房 |