網(wǎng)絡(luò)是數(shù)據(jù)中心里是最為重要的組成部分,也是技術(shù)最為復(fù)雜的部分,要對網(wǎng)絡(luò)運(yùn)行進(jìn)行日常維護(hù),故障處理需要掌握不少本領(lǐng)才行。數(shù)據(jù)中心網(wǎng)絡(luò)分為存儲網(wǎng)和數(shù)據(jù)網(wǎng),存儲網(wǎng)采用的是光纖通道協(xié)議,數(shù)據(jù)網(wǎng)采用的是以太網(wǎng)協(xié)議。與以太網(wǎng)協(xié)議相比,光纖通道協(xié)議要簡單得多,只要完成二層互通即可。以太網(wǎng)協(xié)議相對要復(fù)雜,各種協(xié)議標(biāo)準(zhǔn)琳瑯滿目,讓人丈二和尚摸不到頭腦,一個(gè)人要將所有協(xié)議吃透、吃精通根本不可能。那么,面對數(shù)據(jù)中心里復(fù)雜的網(wǎng)路世界,怎么才能做好維護(hù)呢?本文總結(jié)出了網(wǎng)絡(luò)維護(hù)的三把斧,用好這三把斧,就有能力成為數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)專家。
通常做網(wǎng)絡(luò)維護(hù)工作有兩大塊,一是日常的檢查,發(fā)現(xiàn)隱患及時(shí)消除;二是故障處理,出現(xiàn)故障能夠及時(shí)恢復(fù)業(yè)務(wù),同時(shí)還能定位出原因,避免相同的故障再出。日常的檢查比較簡單,就算應(yīng)付了事也能過關(guān)。不過有句成語叫“千里之提,潰于蟻穴”,很多故障正是因?yàn)槠綍r(shí)的疏忽,對各種小的隱患不重視,最終患釀成大事故。干網(wǎng)路維護(hù)進(jìn)行故障處理,是比較有含金量的工作,也正是這樣,網(wǎng)絡(luò)故障排查專家非常受人歡迎。想要成為一名資深的網(wǎng)絡(luò)維護(hù)專家,需要在故障分析和診斷上有手段。大多數(shù)的網(wǎng)絡(luò)維護(hù)人員都是通過查設(shè)備、查線路、抓包、找故障點(diǎn),累得煩死、掉大把頭發(fā)還不能解決各種網(wǎng)絡(luò)故障問題,這是因?yàn)闆]有找到這其中的門道。做網(wǎng)絡(luò)維護(hù)要做網(wǎng)路設(shè)備監(jiān)測、網(wǎng)絡(luò)設(shè)備定位和故障定位報(bào)警、網(wǎng)絡(luò)流量分析三點(diǎn),這里稱為三把斧。用好這三把斧頭可以在網(wǎng)絡(luò)技術(shù)世界里披荊斬棘,所向無敵。
第一把斧:網(wǎng)絡(luò)流量分析
數(shù)據(jù)中心網(wǎng)絡(luò)并不關(guān)心應(yīng)用層的內(nèi)容,只完成數(shù)據(jù)流量的交互,這樣對流量的走向分析尤為重要。要對整個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)里所有鏈路流量進(jìn)行監(jiān)測,當(dāng)故障發(fā)生時(shí),能夠迅速鎖定故障范圍和位置,這些故障最早在流量圖上就可以反映出來,所以流量分析軟件,對于數(shù)據(jù)中心網(wǎng)絡(luò)維護(hù)必不可少。選擇一兩款使用廣泛的流量分析軟件部署到數(shù)據(jù)中心網(wǎng)絡(luò)中,靈活啟動(dòng)不同層面(接入層、匯聚層、核心層)的網(wǎng)絡(luò)設(shè)備進(jìn)行流量信息采集,不需要改動(dòng)現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)對數(shù)據(jù)中心網(wǎng)絡(luò)流量信息統(tǒng)計(jì)和分析功能,能夠及時(shí)了解各種網(wǎng)絡(luò)應(yīng)用占用的網(wǎng)絡(luò)帶寬,各種業(yè)務(wù)消耗的網(wǎng)絡(luò)資源,可以幫助網(wǎng)絡(luò)維護(hù)人員及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)瓶頸,防范網(wǎng)絡(luò)病毒的攻擊,并提供豐富的網(wǎng)絡(luò)流量分析報(bào)表。學(xué)會(huì)從網(wǎng)絡(luò)流量圖中發(fā)現(xiàn)問題并解決問題,是網(wǎng)絡(luò)維護(hù)的基本技能,必須要掌握。
第二把斧:網(wǎng)絡(luò)監(jiān)測分析
數(shù)據(jù)中心網(wǎng)絡(luò)只要確保流量送達(dá)目的設(shè)備,就完成了自己的使命,這個(gè)運(yùn)送過程是否有問題,需要通過監(jiān)測手段來確定。一般我們判斷一個(gè)網(wǎng)絡(luò)是否有問題,往往需要借用一些探測工具,比如:PING、TRACERT、SNMP、SYSLOG等工具。通過PING和TRACERT可以快速確認(rèn)故障位置和設(shè)備,以便對故障設(shè)備進(jìn)行深入分析。通過SNMP和SYSLOG可以獲取到故障設(shè)備運(yùn)行的基本信息,很多時(shí)候通過設(shè)備報(bào)出的SYSLOG信息就可以確認(rèn)設(shè)備故障的原因。很多數(shù)據(jù)中心將這些工具都固化到網(wǎng)絡(luò)監(jiān)測軟件中,這樣可以有效地預(yù)防或發(fā)現(xiàn)故障,警報(bào)將通過聲音、短信、微信等方式顯示報(bào)警框、發(fā)送Mail等方式及時(shí)發(fā)送相關(guān)人員,或自動(dòng)運(yùn)行相應(yīng)的程序進(jìn)行故障處理,提供全方位的告警監(jiān)測、統(tǒng)計(jì)分析和報(bào)警定位。
第三把斧:網(wǎng)絡(luò)故障分析
當(dāng)用了前兩把斧,故障分析依然沒有頭緒,就需要用上這第三把斧,對故障進(jìn)行深入分析。這時(shí)還是要借助于從以上兩點(diǎn)獲得的網(wǎng)絡(luò)基本情況,對故障表現(xiàn)有了基本了解。網(wǎng)絡(luò)故障表現(xiàn)反映到PING業(yè)務(wù)上無非三個(gè)現(xiàn)象:不通、丟包、延遲大。三個(gè)現(xiàn)象衍生出來各種各樣的網(wǎng)絡(luò)問題,根據(jù)三個(gè)故障現(xiàn)象接著分析。首先,不通那一定是轉(zhuǎn)發(fā)表項(xiàng)或者數(shù)據(jù)通路上出了問題,要沿路檢查二三層轉(zhuǎn)發(fā)表項(xiàng)、端口、VLAN、鏈路這些設(shè)備信息,看是否有設(shè)置錯(cuò)誤的地方,再有就是不通也可能是連接設(shè)備直連的鏈路出現(xiàn)了斷路,這個(gè)不僅指設(shè)備外部之間連接的鏈路、模塊,也包括設(shè)備內(nèi)部的連接,有的框式設(shè)備內(nèi)部流量要經(jīng)過很多塊板卡,內(nèi)部互連出了問題也會(huì)影響到轉(zhuǎn)發(fā),有的盒式設(shè)備,流量進(jìn)入設(shè)備后,還沒有處理就在端口的連接器上將報(bào)文丟棄掉了,這些都會(huì)造成不通;其次,丟包一定是轉(zhuǎn)發(fā)表項(xiàng)不穩(wěn)定或者數(shù)據(jù)通路上不穩(wěn)定造成的問題,還是要將轉(zhuǎn)發(fā)表項(xiàng)和數(shù)據(jù)通路都檢查一遍,但是更加關(guān)注的是轉(zhuǎn)發(fā)表項(xiàng)的穩(wěn)定性,是否有變化,數(shù)據(jù)通路上更加關(guān)注是否有錯(cuò)包、MAC地址遷移、STP切換等故障表現(xiàn);第三,延遲大那一定是數(shù)據(jù)通路上出現(xiàn)了擁塞,數(shù)據(jù)流量超過了網(wǎng)絡(luò)通路上能提供的最大帶寬,這時(shí)要沿路查轉(zhuǎn)發(fā)通道,看是否有擁塞丟包,端口流量是否有超線速、限速情況,這些故障會(huì)導(dǎo)致業(yè)務(wù)層面延遲大,延遲大對應(yīng)用業(yè)務(wù)傷害蠻大的,訪問體驗(yàn)感超級差,尤其是視頻業(yè)務(wù),會(huì)導(dǎo)致畫面不流暢,觀賞性變差。
做數(shù)據(jù)中心網(wǎng)絡(luò)維護(hù)要用好這三把斧。這三把斧頭說起來簡單,可用起來就有很多門道,不同的人對此都有不同的理解,表現(xiàn)出來的就是每個(gè)人的網(wǎng)絡(luò)技術(shù)水平。真正對這三把斧都理解透徹,往往需要大量時(shí)間經(jīng)驗(yàn)積累。將每一把斧頭展開談的話,都會(huì)涉及到很多的網(wǎng)絡(luò)技術(shù),這需要在網(wǎng)絡(luò)維護(hù)工作中不斷地消化理解,慢慢地認(rèn)識到,掌握了這三把斧,就可成為數(shù)據(jù)中心網(wǎng)絡(luò)維護(hù)的專家。
來源:機(jī)房360
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機(jī)柜租用 石家莊機(jī)房