本篇主要介紹流資料的研究內容。
資料流處理準備知識。
1. 資料流模型的研究
資料流模型是對資料流的邏輯抽象,合理的資料流模型,可以改善資料流的處理效率,是設計高效的處理演算法的基礎。資料流分析模型主要包括:
滑動視窗模型(sliding window model)、界標模型(landmark model)和快照視窗模型(snapshot window model)。
快照視窗:
該視窗事先設定好起始(ts)和結束時間戳(te)並保持固定,僅考慮ts和te之間的資料流。
界標視窗:
該視窗包括從某一起始時間戳(ts)到當前時間戳(tc)之間的所有資料流,其中初始時間戳始終不變。
滑動視窗:
該視窗的起始和結束時間戳都可以變化,新的資料進入滑動視窗,而舊的資料則不斷被刪除。
在以上這三種視窗中,界標和滑動視窗具有處理新資料的能力,更接近於實際的應用,尤其是滑動視窗應用尤為廣泛。
2. 目前資料流的研究主要集中在資料流管理系統和資料流分析兩個方面。
資料流管理主要從系統的角度針對不同的應用背景,重點研究資料流的查詢語言、查詢模型、操作排程、資源管理、負載控制等與管理系統密切相關的問題。與資料流管理的
國內外許多大學和研究機構依託資料庫管理系統的設計思路,針對具體行業背景,相繼提出了多種資料流模型,並研發了一些具有代表性的資料流管理系統。典型的
有:stream(stanford stream data manager):它是史丹福大學推出的乙個通用型資料流原型系統,以關係型資料為基礎設計了一種支援資料流的連續查詢語言:cql(continuous query language)。stream系統的設計目標是在資源緊張的情況下能有效地給出連續近似的查詢結果。其設計重心為針對連續、時變資料流的管理與近似查詢處理,主要的研究內容包括:查詢語言、操作排程、資源管理、負載控制等。該系統能適應海量、快速和易變的資料流環境,具有非常好的連續查詢能力。
telegraphcq:該原型系統由加州大學伯克利分校開發,建立在開源資料庫postgresql之上。它採用工作流系統的設計思想,查詢處理上基於主動查詢處理引擎,並通過元組路由和分組過濾技術實現了多查詢操作運算元的共享。其重點考慮自適應處理和基於流水線的動態操作排程等。
aurora&borealis:aurora系統是布朗大學、布蘭蒂斯大學和麻省理工大學聯合開發的乙個實時資料流系統,該系統主要針對三類應用:實時監控應用、資料歸檔型應用和包含對歷史與當前資料處理的應用。該系統偏重於實時處理,如:qos管理,記憶體感知的操作排程,基於語義的負載控制,以及支援歸檔的儲存管理等。
gigascope:它是at&t實驗室開發的高效能資料流管理系統,主要用於分布高速網路資料流的監控[14]。該系統採用兩層查詢結構,能夠根據流速和可用資源選擇最恰當的處理策略。
資料流分析方面包括:
資料流頻繁項集挖掘
資料流聚類
資料流分類
資料流離群點檢測
資料流skyline計算
資料流子串行匹配
資料流索引結構
資料流概要結構生成
資料取樣以及壓縮
資料流粒度表示
資料流相似性度量
資料流趨勢**
等內容。
目前這方面的研究國內外已有豐富成果。特別是資料流管理、資料流聚集分析和資料流挖掘得到廣泛而深入的研究。
3. 資料流挖掘的挑戰
針對資料流模型的特點,目前的工作主要有以下挑戰:
低時空複雜度。無限快速性是資料流的基本特點,從而無限快速的流資料與有限資源(計算、儲存和網路頻寬等)之間的矛盾成為資料流研究面臨的基本矛盾。資料流規模在理論上是無限的,為保證演算法能適應無限快速的資料流處理,要求資料流演算法具有非常低的時空複雜度。
增量近實時性。資料流的單遍掃瞄性要求演算法必需具備可增量更新的功能。由於歷史資料通常不再儲存,原有針對資料庫中持久儲存的資料而設計的可多遍掃瞄的演算法將不再適用於資料流應用,針對不同的資料流分析處理問題,都將需要設計相應的可增量更新的資料結構和演算法;資料流的快速性勢必要求演算法能近實時的處理每個流資料,通常要求演算法具有線性甚至次線性的處理速度[,次線性可通過抽樣等技術獲得。
自適應近似性。資料流的不確定性和時變性要求演算法具有自適應的功能。資料流演算法應能及時檢測到資料流的動態變化,如負載、流速和資料分布等的變化,並根據變化而自適應的調整演算法的相應引數,進而提高演算法穩定性和可靠性,例如過載情況下可通過排程優化、負載平衡和降載(load shedding)等技術進行處理;資料流應用通常僅需滿足精度要求的近似結果,其演算法可應用近似演算法的設計思想和方法。
資料探勘導論 (三)
頻率 分類屬性的眾數 具有最高頻率的值 第1步 以遞增順序排列原始資料 即從小到大排列 第2步 計算指數i np 第3步 l 若 i 不是整數,將 i 向上取整。大於i的毗鄰整數即為第p百分位數的位置。2 若i是整數,則第p百分位數是第i項與第 i l 項資料的平均值。按照上述的計算公式i n p ...
資料探勘 (三) 資料預處理
1 準確性 2 完整性 3 一致性 4 時效性 5 可信性 反映有多少資料是使用者信賴的 6 可解釋性 反映資料是否容易理解 改進資料質量,有助於提高其後的挖掘過程的準確率和效率,是知識發現過程的重要步驟 1 資料清理 資料清理例程通過填寫缺失的值,光滑雜訊資料,識別或刪除離群點,並解決糾正資料中的...
資料探勘實戰(三) 資料建模
根據前兩次任務的資料探索結果,進行學習模型的訓練,嘗試多種模型,這些模型暫未調參,後面再補上 y data status x data.drop status axis 1 把資料集拆分成訓練集和測試集 seed 7 test size 0.33 x train,x test,y train,y t...