聊一聊統計學和資料探勘的區別(七)

2021-09-27 10:55:23 字數 879 閱讀 6811

在統計學和資料探勘中,有很多東西都是容易混淆的,比如他們的目的都是一樣的,但是統計學主要關注的是定量資料,而資料探勘中需要處理其他形式的資料,這些也是資料探勘與統計學中需要注意的事情。統計學和資料探勘區別還有哪些呢?

當邏輯資料越來越多的時候,比如當要發現的模式由連線的和分離的要素組成的時候。類似的,有時候會碰到高度有序的結構。分析的要素可能是圖象,文字,語言訊號,或者甚至完全是科學研究資料。而資料探勘有時候是一次性的實驗。這是不正確的。它更應該被看作是乙個不斷的過程。從乙個角度檢查資料可以解釋結果,以相關的觀點檢查可能會更接近等等。關鍵是,除了極少的情形下,很少知道哪一類模式是有意義的。資料探勘的本質是發現非預期的模式-同樣非預期的模式要以非預期的方法來發現。

當我們把資料探勘作為乙個過程的觀點相關聯的時候,這就是認識到結果的新穎性。許多資料探勘的結果是我們所期望可以回顧。然而,可以解釋這個事實並不能否定挖掘出它們的價值。沒有這些實驗,可能根本不會想到這些。實際上,只有那些可以依據過去經驗形成的合理的解釋的結構才會是有價值的。

從上面的內容中,我們顯然在資料探勘存在著乙個潛在的機會。在大資料集中發現模式的可能性當然存在,大資料集的數量與日俱增。然而,也不應就此掩蓋危險。所有真正的資料集都有產生錯誤的可能。關於人的資料集尤其有這種可能。這很好的解釋了絕大部分在資料中發現的「非預期的結構」本質上是無意義的,而是因為偏離了理想的過程。當然,這樣的結構可能會是有意義的:如果資料有問題,可能會干擾蒐集資料的目的,最好還是了解它們。與此相關聯的是如何確保任何所觀察到的模式是「真實的」,它們反應了一些潛在的結構和關聯而不僅僅是乙個特殊的資料集,由於乙個隨機的樣本碰巧發生。在這裡,記分方法可能是相關的,但需要更多的統計學家和資料探勘工作者的研究。

聊一聊統計學和資料探勘的區別(四)

前幾篇文章中我們都是從統計學的角度給大家講解資料探勘和統計學的區別所在,但是對於統計學來說,資料探勘中的核心就是準則,資料探勘意味著資料集的規模,它常常標示著傳統的準則不可用,我們在這篇文章中給大家詳細地介紹一下這些內容。相對於統計學而言,資料探勘中準則起著更為核心的作用,資料探勘所繼承的學科如電腦...

聊一聊統計學和資料探勘的區別(六)

在上面的文章中我們在資料探勘的性質方面給大家介紹了資料探勘和統計學的知識。在統計學中,統計學很少去關注實時分析,而資料探勘中需要注意這些事情,這也是資料探勘與統計學的區別之一,現在我們繼續給大家介紹一下資料探勘知識與統計學的區別。在統計學中,有很多的問題發生在總體隨時間變化的情形。因此,我們已經論述...

聊一聊統計學與資料探勘的區別(一)

當大家看到這個題目的時候,想必大家都有些疑惑 統計學和資料探勘看起來並不容易混淆的東西,有必要去區分統計學和資料探勘嗎?答案是肯定的,這是因為統計學和資料探勘有共同的目標,就是發現資料中的結構,下面我們就給大家講述一下統計學與資料探勘的區別。我們說過了,統計學和資料探勘有著共同的目標就是發現資料中的...