評價乙個資料探勘系統主要從準確性、效能、功能性、可用性和輔助功能五個主要方面來考慮。
準確性評估資料探勘系統最關鍵
的因素是準確性。通過在資料探勘系統上執行演算法做的**和分類的準確率,我們可以判斷系統中的演算法是否合理,資料採集是否全面以及資料預處理工作是否完善。
效能該系統能否在我們需要的商業平台執行;軟體
的架構是否能連線不同的資料來源;操作大資料集時,效能變化是線性的還是指數的;運算的效率到底怎樣,能否符合實際應用需求;是否基於某種開源框架;是否易於擴充套件;執行的穩定性等。
功能性該系統是否提供足夠多樣的演算法;能否避免挖掘過程黑箱化;軟體
提供的演算法能否應用於多種型別的資料;使用者能否調整演算法和演算法的引數;軟體能否從資料集隨機抽取資料建立預挖掘模型;能否以不同的形式表現挖掘結果等。
可用性系統的使用者介面是否友好;視覺化效果是否好;是否易學易用;系統面對的使用者是初學者,高階使用者還是專家;錯誤報告對使用者除錯是否有很大幫助;應用的領域是專攻某一專業領域還是適用多個領域等。
輔助功能
是否允許使用者更改資料集中的錯誤值或進行資料清洗;是否允許值的全域性替代;能否將連續資料離散化;能否根據使用者制定的規則從資料集中提取子集;能否將資料中的空值用某一適當均值或使用者指定的值代替;能否將一次分析的結果反饋到另一次分析中,等等。
對於不同的資料探勘演算法,我們採用的評價方式是不同的。
在 【一小時了解資料探勘③:詳解大資料探勘の分類技術
中】 我們提到了用來評估分類器的混淆矩陣(confusion matrix
),這裡的圖1所示是混淆矩陣的另外一種
表現方式。
圖1:混淆矩陣示意圖
乙個資料探勘系統最終的評價在於是否能夠產生商業價值。如果沒有商業價值,再完美的系統也是沒有意義的。在本系列中多次講述的關聯演算法,我們採用的標準是用兩個概念來表示的,這兩個分別為支援
度和置信度。關於支援
度和置信度的概念,我們會在後面文章中介紹。
資料探勘系統最後的結果需要以一種美觀和直觀的方式呈現給使用者。不幸的是,在中國乃至其他亞洲地區,資料視覺化的工作被嚴重忽略。我見到國內資料探勘的視覺化展現在很多時候是用微軟的office來呈現的。
我們來看一下國外的資料探勘業者是怎樣用直觀的圖表方式展示資料的。圖2是根據英國國家統計局2023年的統計資料整理的,是在不同行業男女平均收入差距的圖表,圖中顯示的是人均收入為25000
英鎊的行業中男女的工資差距。在此可以很直觀地看到在同一行業中,男人平均要比女人的收入高。
google為資料分析和資料探勘提供了乙個開放的作圖工具
google chart
,你可以輸入** ht
tps://dev
elopers.google
.com
/char
t/ 進行試用。
你可以很方便地在google chart
中植入資料,例如可以直接從google的**
上把程式複製貼上到你的網頁上來顯示資料。下圖是在google chart
上用世界銀行(world bank
)的資料整理出的按照地區來劃分的受孕率和平均壽命的分布圖。關於如何利用google chart 來程式設計
,您可以參考google提供的線上文件:ht
tps://dev
elopers.google
.com
/char
t/int
eractive/docs
/quick_star
t圖2:英國男女平均工資差距示意圖
圖3-世界受孕率和平均壽命對比圖
從圖3中可以很直觀地看到,一般來說,越是經濟發達的地區,人們的平均壽命越長,但是受孕率就越低。圖3中的中非共和國(central
africa
n republic
),平均壽命只有48.3歲,而受孕率卻高達4.55。作為對比,我們看澳門(ma
cao sar
,china
),平均壽命達到81歲,而受孕率只有1.12。
圖4是根據美國
健康局資料所做的糖尿病分布圖,是用tableau software
www.table
ausoftwar
e.com
/public/gallery/ge
ograph
y-diabetes 。
在這個網頁上你可以調節右下角的三個關於肥胖率、窮困率和白人比例的開關。調節之後,可以很直觀地發現:肥胖率越高,糖尿病患者比例越高;窮困率越高,糖尿病患者比例越高;白人佔比越低,糖尿病患者比例越高
tableau software
是最近兩年最火的資料視覺化工具
,用以顯示最終資料探勘結果是沒有問題的。但是遺憾的是如果我們需要展示純原始資料,資料量如果過大則顯示效果不能保證。不過,資料視覺化是資料探勘學者們的重要研究方向之一。在不久的將來,我們一定會看到乙個像tableau software
一樣做得如此形象的圖形展示程式,而這樣的程式應當會是建立在乙個類似hadoop
和nosql
的分布式資料系統之上的。
圖4:糖尿病佔比示意圖
如果追求影象展現的酷炫視覺效果,那麼你必須要好好瀏覽**
visual.ly/ ,它是2023年最火的視覺視覺化社群。圖5截自該**,展示的是wikipedia
中有地理位置的文章標示。亮度和文章的密集度成正比。最亮的地方,比如西歐和美國
加州及東北地區。
圖5也來自 http://
visual.ly/ ,展示的是芬蘭首都人民的年齡和負債率的對比,採用三維效果,以展示年齡和負債率對比在各個年份的變化。
圖6:芬蘭首都人民的年齡和負債率的對比示意圖
除了剛才提到的這些網際網路上的資料圖形展示工具,我們在後面的r語言介紹中會舉例說明如何用r語言開源工具來作圖。
所謂開源,指的是軟體開發者把軟體系統的原始**公開,使得其他的軟體開發者和愛好者可以對軟體進行修改。
節選譚磊所著的自《大資料探勘》一書。
帶你了解資料探勘中的演算法
關於資料探勘的演算法有很多,而這些演算法都是能夠幫助我們去解決很多的問題,所以說我們要重視資料探勘演算法的學習。在這篇文章中我們重點為大家介紹關於資料探勘的演算法,希望這篇文章能夠更好地幫助大家去理解資料探勘。1.apriori演算法 首先我們說的是the apriori algorithm,apr...
MYSQL查詢大於建立時間一小時的資料
以下 中times為時間字段,型別為datetime 1.查詢大於times一小時的資料 大於號後面都是獲取times一小時後的時間 select from table where now subdate times,interval 1 hour select from table where n...
帶你了解資料探勘中的經典演算法
資料探勘的演算法有很多,而不同的演算法有著不同的優點,同時也發揮著不同的作用。可以這麼說,演算法在資料探勘中做出了極大的貢獻,如果我們要了解資料探勘的話就不得不了解這些演算法,下面我們就繼續給大家介紹一下有關資料探勘的演算法知識。1.the apriori algorithm,apriori演算法是...