在上面的文章中我們在資料探勘的性質方面給大家介紹了資料探勘和統計學的知識。在統計學中,統計學很少去關注實時分析,而資料探勘中需要注意這些事情,這也是資料探勘與統計學的區別之一,現在我們繼續給大家介紹一下資料探勘知識與統計學的區別。
在統計學中,有很多的問題發生在總體隨時間變化的情形。因此,我們已經論述了資料分析的問題,說明了資料探勘和統計學的差異,儘管有一定的重迭。但是,資料探勘者也不可持完全非統計的觀點。當獲得資料的問題。統計學家往往把資料看成乙個按變數交叉分類的平面表,儲存於計算機等待分析。如果資料量較小,可以讀到記憶體,但在許多資料探勘問題中這是不可能的。更糟糕的是,大量的資料常常分布在不同的計算機上。或許極端的是,資料分布在全球網際網路上。此類問題使得獲得乙個簡單的樣本不大可能。這些就是資料探勘與統計學中的區別。
當描述資料探勘技術的時候,很多人發現依據以建立模型還是模式發現為目的可以很方便的區分兩類常見的工具。前面已經提到了模型概念在統計學中的核心作用。在建立模型的時候,盡量要概括所有的資料,以及識別、描述分布的形狀。這樣的「全」模型的例子如對一系列資料的聚類分析,回歸**模型,以及基於樹的分類法則。相反,在模式發現中,則是盡量識別小的偏差,發現行為的異常模式。很多時候,資料探勘的本質試圖去尋找價值高的資料。然而,第一類實驗也是重要的。當關注的是全域性模型的建立的話,樣本是可取的。可以基於乙個十萬大小的樣本發現重要的特性,這和基於乙個千萬大小的樣本是等效的,儘管這部分的取決於我們想法的模型的特徵。然而,模式發現不同於此。僅選擇乙個樣本的話可能會忽略所希望檢測的情形。
聊一聊統計學和資料探勘的區別(四)
前幾篇文章中我們都是從統計學的角度給大家講解資料探勘和統計學的區別所在,但是對於統計學來說,資料探勘中的核心就是準則,資料探勘意味著資料集的規模,它常常標示著傳統的準則不可用,我們在這篇文章中給大家詳細地介紹一下這些內容。相對於統計學而言,資料探勘中準則起著更為核心的作用,資料探勘所繼承的學科如電腦...
聊一聊統計學和資料探勘的區別(七)
在統計學和資料探勘中,有很多東西都是容易混淆的,比如他們的目的都是一樣的,但是統計學主要關注的是定量資料,而資料探勘中需要處理其他形式的資料,這些也是資料探勘與統計學中需要注意的事情。統計學和資料探勘區別還有哪些呢?當邏輯資料越來越多的時候,比如當要發現的模式由連線的和分離的要素組成的時候。類似的,...
聊一聊統計學與資料探勘的區別(一)
當大家看到這個題目的時候,想必大家都有些疑惑 統計學和資料探勘看起來並不容易混淆的東西,有必要去區分統計學和資料探勘嗎?答案是肯定的,這是因為統計學和資料探勘有共同的目標,就是發現資料中的結構,下面我們就給大家講述一下統計學與資料探勘的區別。我們說過了,統計學和資料探勘有著共同的目標就是發現資料中的...