故障背景

  近日接到某公安機關(guān)信息中心電話,反應(yīng)整個公安系統(tǒng)傳輸數(shù)據(jù)丟包。雖然個機房內(nèi)網(wǎng)絡(luò)通信正常,但是辦公區(qū)域都訪問服務(wù)器都會丟包。導(dǎo)致視頻會議傳輸不正常,嚴(yán)重影響正常辦公。

  故障重現(xiàn)

  通過與客戶溝通,類似網(wǎng)絡(luò)故障已經(jīng)持續(xù)數(shù)月,故障原因不明,故障現(xiàn)象為公安系統(tǒng)內(nèi)部無規(guī)律丟包1-2%,影響網(wǎng)絡(luò)數(shù)據(jù)傳輸。其中服務(wù)器之間ping的丟包率最多,遠端用戶ping服務(wù)器丟包較少,部分用戶ping上級機構(gòu)不丟包。服務(wù)器區(qū)內(nèi)的一臺管理主機ping多臺不同網(wǎng)段,不同位置的IP有時會同時丟包。

  故障分析

  由于全網(wǎng)都有掉線現(xiàn)象,我們首先利用科來網(wǎng)絡(luò)分析系統(tǒng)抓取核心交換機上的數(shù)據(jù)包,判定是否由于網(wǎng)絡(luò)阻塞、網(wǎng)絡(luò)攻擊等其他原因造成無規(guī)律掉線的情況。

  我們用服務(wù)器區(qū)的管理主機144.196ping服務(wù)器128.8抓取數(shù)據(jù)包。由于是雙向鏡像,我們可以看到數(shù)據(jù)包轉(zhuǎn)發(fā)的情況很正常。但是會有ICMP請求轉(zhuǎn)發(fā)出去以后沒有收到應(yīng)答的現(xiàn)象,ICMP返回丟包信息。

  為了進一步找到故障原因,并且服務(wù)區(qū)數(shù)據(jù)包丟包較多,所以我將抓包點下移到服務(wù)器區(qū)的匯聚交換機。

  這次抓包我們抓取同一匯聚交換機下的一臺服務(wù)器與一臺計算機之間的icmp協(xié)議。同樣的我們發(fā)現(xiàn)數(shù)據(jù)包被正常轉(zhuǎn)發(fā),而直連的主機并沒有應(yīng)答。

  又經(jīng)多次測試?yán)塾嫲l(fā)現(xiàn):

  主機144.196發(fā)送606個請求數(shù)據(jù)包,接受到595個回應(yīng)數(shù)據(jù)包。

  交換機抓包128.39接受598個請求數(shù)據(jù)包,發(fā)送595個回應(yīng)數(shù)據(jù)包。

  通過這兩組數(shù)字證明主機144.196到交換機之間已經(jīng)存在丟包現(xiàn)象。主機128.39與交換機之間同樣存在丟包現(xiàn)象。為進一步確定故障點,我們在服務(wù)區(qū)內(nèi)的匯聚交換機直連一臺裝有科來網(wǎng)絡(luò)分析系統(tǒng)的筆記本。

  我們在服務(wù)器端ping新添加的這臺筆記本電腦。服務(wù)器端ICMP顯示丟包時,我們停止抓取數(shù)據(jù)包。發(fā)現(xiàn)交換機抓包與直連的主機抓取的數(shù)據(jù)包成比例為2:1。如:服務(wù)器共發(fā)送101個數(shù)據(jù)包,丟失1個數(shù)據(jù)包。交換機抓到請求包200個(雙向抓包),而新直連的主機抓取100個。說明在三層轉(zhuǎn)發(fā)二層傳輸上數(shù)據(jù)都正常的進行發(fā)送和處理。只是在數(shù)據(jù)包發(fā)送的時候,有個數(shù)據(jù)包沒有發(fā)送到交換機就已經(jīng)丟失了。我們進入機房查看網(wǎng)線物理狀態(tài),發(fā)現(xiàn)部分網(wǎng)線使用的是非屏蔽超五類雙絞線,并且強電與網(wǎng)線同走的一個線路。同時我們在一臺服務(wù)器同時ping多網(wǎng)段多區(qū)域的主機時,經(jīng)常出現(xiàn)同一時間多個ping包丟失。初步證明是強電傳輸時對信號造成干擾數(shù)據(jù)傳輸,最終產(chǎn)生無規(guī)律丟包的現(xiàn)象。

  故障結(jié)論及解決辦法

  丟包是由于服務(wù)器區(qū)大量使用非屏蔽雙絞線,并與強電布線相同導(dǎo)致強電干擾造成的。遠端ping服務(wù)器丟包是因為遠端到核心不丟包,所以丟包較少。服務(wù)器ping服務(wù)器丟包多是由于進出交換機的線都受干擾造成的,所以丟包。遠端ping向上級單位不丟包是因為匯聚與核心到上聯(lián)單位都是由光纖,并且不通過服務(wù)器傳送數(shù)據(jù)。Ping多主機同時丟包,是由于發(fā)送請求包時被電磁干擾信號,交換機無法識別數(shù)據(jù)包造成丟包現(xiàn)象。

  最后客戶采用電纜與數(shù)據(jù)線纜分開,并采用屏蔽雙絞線進行布線,全網(wǎng)丟包現(xiàn)象就沒有再出現(xiàn)。

責(zé)任編輯:admin