資料探勘 DM 基本概念

2022-07-12 21:30:29 字數 1662 閱讀 8593

問題:資料總量**式增加,如何從中提取真正有價值的資訊,產生了新的領域(dm)。幾個名詞:

1)data mining:資料探勘

2)knowledge discovery:知識發現

3)machine learning:機器學習(機器學習是資料探勘的乙個重要工具)

4)knowledge discovery in database:kdd

資料探勘的主要功能:

1)概化:歸納、總結和對比資料的特性,將資料特徵化或區分,比如對學生的成績按分數段就行統計。

2)關聯分析:發現資料之間的關聯規則,描述某些屬性在給定資料中一起頻繁出現的條件。

3)分類和**:通過已知類別的資料來訓練模型或者函式,評估合格之後

用來對未知類別的資料做**。

4)聚類分析:審視資料的分布特色,自動得將資料劃分為不同的組,即將類似的資料歸類到一組。

5)離群點分析:在資料當中,跟主流的資料分布顯著不一致的那些點,通常被認為是雜訊或者異常。

6)趨勢和演變分析:描述行為隨時間變化的物件的發展規律或趨勢。

中心趨勢度量:度量資料分布的中部或中心位置,或者說,給定乙個屬性,它的值大部分落在何處?有 $3$ 個指標:

1)均值:最常用最有效的是的算術均值或加權均值,對極端值很敏感。

2)中位數:對於非對稱資料,資料中心更好的度量是中位數,但在觀測數量很大時,計算開銷很大。

3)眾數:出現最頻繁的值,也叫模。具有乙個、兩個、三個眾數的資料集合分別稱為單峰(單模態)、雙峰的、三峰的。

a.當資料對稱時,眾數 = 中位數 = 均值。

b.當資料分布正傾斜時,均值受偏高數值的影響較大,其位置在眾數之右,中位數在眾數與算術平均數之間,眾數 < 中位數 < 均值。

c.當資料分布負傾斜時,均值受偏小數值的影響較大,其位置在眾數之左,中位數仍在兩者之間,均值 < 中位數 < 眾數。

資料的散布:度量資料的離散程度。

1)極差:最大值和最小值之差。

2)方差和標準差:衡量資料偏離均值的範圍,代表模型的穩定性。

3)四分位數:把資料劃分成四個基本上大小相等的連貫集合。$q_$:有 25% 的資料;$q_$:有 50% 的資料;$q_$:有 75% 的資料在此之下。

資料探勘基本概念

1 過擬合 overfitting 顧名思義,某種演算法產生的分類器能夠百分百正確分類訓練樣本,而對於新出現的樣本,它都認為不屬於這個類別,實際資料不完全是訓練樣本能夠覆蓋的,訓練樣本只是其中一小部分,這導致其在新樣本的分類上準確率較低。如圖,可以看出在a中雖然完全的擬合了樣本資料,但對於b中的測試...

關聯規則挖掘 基本概念

本文主要來自 資料倉儲和資料探勘 一書,這本書講的和維基百科裡的非常相似,懷疑是從某本外文書籍裡翻譯過來的。關聯規則挖掘 association rule mining 是資料探勘中最活躍的研究方法之一,可以用來發現事情之間的聯絡,最早是為了發現超市交易資料庫中不同的商品之間的關係。這裡有一則沃爾瑪...

資料探勘學習筆記 關於資料的基本概念

屬性 按照屬性的型別分 1.定性的 分類的 標稱 nominal 序數 ordinal 2.定量的 數值的 區間 interval 比率 ratio 按照屬性值的個數分 離散的 discrete 連續的 continuous 資料質量 因為存在測量誤差及資料收集錯誤 如遺漏資料物件或遺漏資料屬性,或...