首先資料探勘無法避免資料質量問題,因此資料探勘著眼於兩個方面:
(1)資料質量問題的檢測和糾正(2)使用可以容忍低質量資料的演算法。第一步的檢測和糾正,通常稱為資料清洗(data cleaning)。
(1)測量誤差和資料收集錯誤(2)雜訊和偽像(3)精度、偏倚和準確率(4)離群點 (5)遺漏值(6)不一致的值(7)重複資料
測量誤差(measurement error)是測量過程中導致的誤差,乙個常見的問題:在某種程度上,記錄的值與實際的值不同。
資料收集錯誤(data collection error)是指諸如遺漏資料物件或屬性值,或不當地包含了其他資料物件等錯誤。
測量誤差和資料收集錯誤可能是系統的也可能是隨機的。
雜訊和偽像:雜訊是測量誤差的隨機部分。這可能涉及值被扭曲或加入了謬誤物件(雜訊的意思還需要多考慮,雜訊的完全消除較為困難)。
偽像:資料的確定性失真。
精度、偏倚和準確率。在統計學和實驗科學中, 測量過程和結果資料的質量用精度和偏倚度量。
精度(precision)(同乙個量的):重複觀測值之間的接近程度。
偏倚(bias):測量值與被測量值之間的系統的變差。
精度通常用值集合的標準差度量,而偏倚用值集合的均值與測出的已知值之間的差度量。只有那些通過外部手段能夠得到測量值的物件,偏倚才是可確定的。。假如我們有1克質量的標準實驗室重量,並且想評估實驗室的新天平的精度和偏倚。我們稱重5次,得到下列值:。這些值的均值是1.001,因此偏倚是0.001。用標準差度量。精度是0.013。
通常使用更一般的術語準確率表示資料測量誤差的程度。
準確率(accuracy):準確率依賴於精度和偏倚,但是由於它是乙個一般化的概念,因此沒有用這兩個量表達準確率的公式。
諸如有效數字、精度、偏倚和準確率問題常常被忽視,但是對於資料探勘、統計學和自然科學,它們都非常重要,如果缺乏對資料和結果準確率的理解,分析者將可能出現嚴重的資料分析錯誤。
離群點(outlier)
離群點是在某種意義上具有不同於資料集中其他大部分資料物件的特徵的資料物件,或是相對於該屬性的典型值來說不尋常的屬性值。我們也稱為「異常」(anomalous)物件或異常值。 離群點與雜訊相比,離群點可以是合法的資料物件或值,因此,不像雜訊,離群點本身有時是人們感興趣的物件。
乙個物件遺漏乙個或多個屬性值的情況並不少見(豈止是並不少見,很多時候都會出現資訊收集不齊的問題)。還有些情況下,某些屬性並不能用於所有物件,
以下為一些處理遺漏值的策略,每種策略可能適用於特定的情況下:
刪除資料物件或屬性——刪
一種簡單而有效的策略。 問題:即使不完整的資料物件也包含一些有用的資訊,並且,如果許多物件都有遺漏值,則很難甚至不可能進行可靠的分析,如果某個資料集只有少數的物件具有遺漏值,則忽略它們是一種選擇。
估計遺漏值——補
有時,遺漏值可以可靠地估計,例如,在考慮以大致平滑的方式變化的、具有少量但分散的遺漏值的時間序列時,遺漏值可以使用其他值來估計。
考慮乙個具有許多相似點的資料集,與具有遺漏值的點的鄰近的點的屬性值常常可以用來估計遺漏的值,如果屬性是連續的,則可以使用最近鄰的平均屬性值;如果是分類的,則可以去最近鄰中最常出現的屬性值;在分析時忽略遺漏值——替
許多資料探勘方法都可以修改,忽略遺漏值。例如計算各對資料物件間的相似性,如果某對的乙個物件或兩個物件都有某屬性有遺漏值,則可以僅使用沒有遺漏值的屬性來計算相似性。
除此之外,資料可能包含不一致的值或者重複資料。
(五)巧婦難為無公尺之炊 資料採集
資料是大家的原料,在設計方案 撰寫報告之前,備料很關鍵。常言道巧婦難做無公尺之炊,我們今天就來聊聊如何採集資料吧。一 資料特徵 時效性 分散性 概率性 再創性 基於時效性,資料採集要有專案週期。基於概率性,資料採集要有抽樣設計。基於分散性,針對不同的資料 要有不同的採集方法和問卷設計。基於再創性,要...
巧婦難為無公尺之炊 走出軟體測試的困境
隨著資訊科技在國內不同行業應用的開展,人們已經不再懷疑軟體對於社會運轉的巨大作用。但是,隨著人們對軟體作用期望值的提高,已經有越來越多人將關注點轉移到軟體的可靠性上,因此,國內軟體測試公司或測評中心如雨後春筍般出現。軟體測試並非萬能藥 我們在進行軟體測試市場開發的過程中,發現了這樣的乙個問題 不少企...
基於深度學習的無參考質量評價
1.2017年iccv rankiqa learning from rankings for no reference image quality assessment 作者提出了基於排序的無參考質量評價。motivation iqa的資料量小,基於乙個cnn模型提取特徵。2.2018年cvpr h...