好久沒更博了,說明學習進度太慢了。
一 實施目的
用抓取的資料報做統計分析,分析出行為的特徵資訊,用於進一步的網路診斷
二 實現思路
對已經抓取和解析的大量的資料報,進行資料清洗和初步過濾,處理成半結構化的資料,匯入到hdfs
分布式檔案系統中,做進一步的統計分析、資訊檢索、快速查詢。具體採用
hive
做統計特徵的計算,
hbase
作為詳細資訊的快速查詢,
splunk
對檔案建立索引,全文檢索,可以直觀查詢統計關鍵字,提示敏感資訊。
三 系統流程圖
四 具體模組
1. 資料報抓取:用現成的抓包工具,包含捕捉抓包、過濾 、解析、儲存的功能,如windows
下的抓包驅動
winpcap
,linux
下的tcpdump
和libpcap
工具。
2. 資料清洗、初步過濾
3. 匯入hdfs檔案系統
分為三個部分:hdfs
直接訪問、存入
hbase
、進一步清洗後存入
hive
注:hbase
和hive
的資料最終是儲存在
hdfs
上的,只是是有結構的。
直接訪問: 將抓包的檔案不經過任何處理,作為原始資料儲存在hdfs
上,splunk
對原始資料以關心的敏感資訊詞來建立索引,提供全文檢索的功能,可直接在
web上查詢關鍵字。
匯入hbase的為半結構化資料:將直接抓取的資料報導入hbase
,以抓取時間為
rowkey
。供快速查詢
匯入hive的為結構化資料:
表一 抽取的資料資訊
**原始資訊
捕包資訊表
捕包的開始時間、結束時間、捕包次數、每次捕獲包的個數、每次捕獲包的總位元組數的大小
包頭資訊表
流入介面 流出介面 **位址 目的位址 協議型別 時間 長度 標誌位
在hive
中進行統計特徵提取:
表一 hive統計特徵
型別特徵
應用場景
報文統計
捕捉報文的總數與百分比 顯示報文的數量
顯示報文的大小
情景:流量統計
終端資訊統計
ip終端節點統計
乙太網終端節點統計
tcp/udp終端節點統計
情景二:少量ip端點與大量tcp端點:每台主機可能有多個tcp連線,可能是網路攻擊(svn)
協議統計
含有該協議的包數目在捕捉檔案所有包所佔的比例
含有該協議包的數目
含有該協議的位元組數
抓包時間內的協議頻寬
情景一:分析資料流負載是否正常
會話統計
乙太網會話統計
ip會話統計
tcp/udp會話統計
情景一:大量的廣播風暴
情景四:檢視掃瞄模式,如防止蠕蟲病毒
情景五:如果有上百個tcp連線則不正常,並可以嘗試查詢無法辨識的埠號
其他計算時間間隔內事件發生的次數
捕獲tcp資料量
檢查tcp序列號
計算幀之間的最小/平均/最大時間
情景一:檢視tcp分析識別符號,比如重傳
情景二:分析單個方向移動的資料量
情景三:看tcp序列號是否相對穩定的增加,表示資料傳輸平穩,沒有過多的重傳或丟失。
情景四:計算平均時間等對檢視報文之間的延時很有用,如果幀之間平均延時相對較低但突然某一點延時很長,可檢視這一幀詳情
4.視覺化展示:
功能表現形式
作用統計圖表展示
折線圖 直方圖 餅狀圖 框圖
用來顯示統計特徵
部分資訊篩選 檢視摘要資訊
非同步統計
web定製分布式查詢,統計相應數值,訊息通知機制
避免後台操作,方便其他人員開發統計
快速查詢
hbase快速查詢一段報文詳細資訊
hbase響應最快,容量大,用來查詢具體資訊
全文檢索
splunk以定義的敏感資訊,建立索引
查詢選擇範圍報文的敏感資訊及所處的準確位置
大資料與網路分析的平台和工具
1.cytoscape,cytoscape 是一款圖形化顯示網路並進行分析和編輯的軟體。2.很多雲大資料技術平台可以應用 ms azure ibm waston knime alteryx等都具備雲計算和網路分析的模組和應用體系。3.neo4j圖資料庫,具有處理百萬和t級節點和邊的大尺度處理網路分析...
VMWARE 網路分析
vmware網路分析 實驗環境 vmware bridge工作方式 vmware nat 工作方式 vmware host only工作方式 實驗環境我的試驗環境是在一台機器上進行的,其配置為p4 2.4g,512mb,64g 硬碟,安裝使用的是windows98和windows 2000作業系統。...
「社交網路」分析
模組化 圖形化實戰 總結最近國產的一部電視劇集 人民的名義 突然的就火了,隨之而來的是各大coder們的社交網路分析。針對劇本中出現的人名,事件,詞頻等以圖形化的介面展示,清晰化的顯示出了劇本的特色。而對於csdn的關注人和粉絲的圖形化展示,也恰好符合這乙個主題 暫且這麼認為吧 本來想做的是公共粉絲...