概述

  網(wǎng)絡異常流量突發(fā)是經(jīng)常困擾運維管理人員的問題之一。突發(fā)流量可能會造成網(wǎng)絡的擁塞,從而產(chǎn)生丟包、延時和抖動,導致網(wǎng)絡服務質(zhì)量下降;不僅如此,突發(fā)流量還可能存在安全風險,例如:DoS攻擊、蠕蟲、竊密等,會對網(wǎng)絡和業(yè)務系統(tǒng)造成更大的危害。常規(guī)的網(wǎng)絡管理和流量監(jiān)控手段通常僅能夠看到流量異常突發(fā)的現(xiàn)象,卻不能夠讓管理人員深入分析異常流量產(chǎn)生的原因,無法了解異常流量是哪些IP造成的、是否是惡意攻擊行為、異常流量的行為特點、傳輸內(nèi)容、對網(wǎng)絡和業(yè)務有多大影響等,導致難以采用正確的處理措施。

  科來回溯分析系統(tǒng)能夠透視網(wǎng)絡流量、回溯歷史通信數(shù)據(jù)包,從而快速判斷異常流量突發(fā)的根本原因。以下就是一個通過科來回溯分析系統(tǒng)分析異常流量突發(fā)成因的案例。

  分析案例

  某用戶數(shù)據(jù)中心近期通過網(wǎng)管軟件發(fā)現(xiàn)有一個重要的業(yè)務系統(tǒng)服務器區(qū)不定期的會出現(xiàn)流量突發(fā),但用戶無法看到是哪臺服務器出現(xiàn)異常,也不知道是和誰在通訊。由于這個區(qū)域的服務器存儲的都是重要的客戶信息和計費數(shù)據(jù),運維人員非常擔心是服務器被滲透造成數(shù)據(jù)泄密。

  為了對突發(fā)流量進行精細分析,用戶在問題區(qū)域部署了科來回溯分析系統(tǒng)進行7×24小時數(shù)據(jù)采集。設備部署當天我們通過科來回溯分析系統(tǒng)的流量趨勢圖就觀察到了一次持續(xù)約10分鐘的流量突發(fā),峰值流量達到了其他時段的6倍以上。

  通過異常時段的IP會話統(tǒng)計表,我們發(fā)現(xiàn)有一個IP會話的流量明顯高于其他通訊對,竟然是一臺業(yè)務服務器(10.199.90.51)與數(shù)據(jù)中心其他區(qū)域的一臺主機(10.199.72.168)間的異常通訊造成了流量突發(fā)(如圖所示)。

  用戶經(jīng)過核查確認了10.199.72.168是一臺網(wǎng)管系統(tǒng)的主機IP,業(yè)務服務器每隔1小時會向網(wǎng)管系統(tǒng)上報日志數(shù)據(jù),但每次上報的數(shù)據(jù)量應該在10MB以下,不應該造成流量突發(fā)。

  為了進一步分析,我們提取了流量突發(fā)時段該異常通訊對數(shù)據(jù)包通過科來回溯分析系統(tǒng)進行解碼分析,還原問題時段突發(fā)流量的通訊內(nèi)容。從兩臺主機間的數(shù)據(jù)流內(nèi)容中,我們看到10.199.90.51在向10.199.72.168發(fā)送大量的日志條目,不過這些日志的時間都是一個月以前的,并非最近1小時的日志。

  至此,我們初步懷疑是業(yè)務服務器上的網(wǎng)管系統(tǒng)插件異常造成了流量突發(fā),可以完全排除網(wǎng)絡安全問題導致數(shù)據(jù)泄密的可能性。網(wǎng)管系統(tǒng)的維護人員根據(jù)這一線索對10.199.90.51上的插件進行了排查,發(fā)現(xiàn)的確插件程序存在BUG,不定期會上傳大量的歷史日志。插件BUG修正之后,用戶再沒有監(jiān)控到上述的異常流量突發(fā)。

  案例總結(jié)

  由于異常流量突發(fā)的成因很多,對網(wǎng)絡和業(yè)務系統(tǒng)的危害程度也不近相同,在運維管理工作中如果不能對異常流量進行快速、深入的分析,往往會無從下手。這個案例中,異常流量突發(fā)困擾了用戶將近一個月,通過科來回溯分析系統(tǒng)的數(shù)據(jù)挖掘和數(shù)據(jù)包回溯功能一天內(nèi)就準確找到了問題的根源,消除了用戶對信息泄密的擔憂,并使問題的到了徹底的解決。

責任編輯:admin