資料探勘模型介紹之四 最近鄰方法和基於記憶的推理

2021-06-21 13:04:40 字數 1816 閱讀 7979

最近鄰方法的基本原理是:距離最近的個體之間是最相似的,會表現出相同的行為。比如,如果乙個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別。

基於記憶的推理演算法和協同過濾演算法都是基於這個基本思想的。

基於記憶的推理演算法,是在過去的個體中,找到和當前樣本最相似的乙個或者多個個體,用這些個體的結果作為當前樣本的**結果。

協同過濾演算法,是找到和當前樣本最相似的其他樣本,通過這些最相似的樣本的偏好,**當前樣本的偏好。

「相似度」是所有這些演算法的核心思想。相似度通常使用距離來度量。

(1)對新樣本進行類別**或者連續值**;

(2)應用場景包括欺詐監測、響應**、其他分類**和連續值**等。

(1)獲取乙個訓練集,裡面包含了各種用於計算相似度的特徵變數,和分類結果或估計結果變數,這些特徵變數和結果變數都是已知的。

(2)計算待**樣本和訓練集裡每個記錄的相似度。

(3)找到和待**樣本最相似的n個記錄,n>=1。

(4)根據最相似的n個記錄的分類結果或估計結果,**待**樣本的分類或者估計結果。

mbr方法對訓練集的平衡性要求比較高,平衡性是指:訓練集中**變數的每個類別包含的樣本數應該大體相同。如果某個類別包含的樣本數很少,那麼,本來屬於這個類別的待**樣本,在計算相似度時,很可能因為訓練集裡這個類別的樣本數太少而找到其他類別的相似樣本,從而產生誤分類。

訓練集中,每個類有幾十個樣本是最低要求。

計算相似度過程主要是解決兩個問題:一是使用什麼方法計算相似度,二是每個待**樣本和訓練集中的哪個樣本計算相似度。

(1)計算相似度的方法

計算相似度的方法主要包括基於距離度量的方法和基於相似度度量的方法(參見另一篇文章《資料探勘模型介紹之一:相似度模型》)。

(2)待**樣本和訓練集中的哪個樣本計算相似度

最簡單的方式是,待**樣本和訓練集中的每個樣本計算相似度,找到最相似的樣本。

對於訓練集特別大的情況或者實時性要求高的場景,可以採取基於聚類的方法,減少訓練集樣本個數,或者r-樹資料結構,提高計算效率。

根據n個最近鄰來產生待**樣本的結果的乙個關鍵環節是使用最合適的組合函式。所謂組合函式,是指怎麼把n個最近鄰的分類結果或者連續型變數的結果組合起來,形成待**樣本的結果。

如果n=1,也就是指使用乙個最近鄰,那麼根本不需要組合函式,直接把最近鄰的分類或者連續型變數的結果作為待**樣本的結果即可。

如果n>1,就需要使用適當的組合函式來產生待**樣本的**結果。

對於分類**,可以採用以下組合函式:

(1)均等投票:用n個最近鄰中所屬分類最多的那個分類作為待**樣本的分類。相當於讓n個最近鄰投票,票數最多的類別作為待**樣本的分類。這種方式要注意的是,n的設定應該確保有乙個類別得票數高於其他類別,不能出現票數最高類別不止乙個的情況。

(2)權重投票:仍然是讓n個最近鄰投票,但每個最近鄰投票的權重不一樣,權重值和最近鄰與待**樣本的距離成反比,距離越遠的鄰居,投票的權重越低。最後算出每個類別的加權票數,得票最多的類別就是待**樣本的類。

對於連續值**,可以使用以下組合函式:

(1)平均值:使用n個最近鄰結果的均值。

(2)加權平均值:使用n個最近鄰結果的加權平均值,權重和最近鄰與待**樣本的距離成反比。

(1)優點

原理簡單好理解。

(2)缺點

需要進行大量計算,因為mbr方法需要計算待**樣本和訓練集中所有樣本的相似度。

相似度計算,最近鄰個數確定,組合函式選取上靈活度高,需要大量的實驗。

(1)使用乙個各類別樣本數平衡的訓練集。

(2)使用適當的距離函式。

(3)找到合適的最近鄰個數。

(4)選擇合適的組合函式。

資料探勘基礎演算法 KNN最近鄰分類演算法

通過計算待 樣本和已知分類號的訓練樣本之間的距離來判斷該樣本屬於某個已知分類號的概率。並選取概率最大的分類號來作為待 樣本的分類號 懶惰分類演算法,其模型的建立直到待 例項進行 時才開始。knn演算法的指導思想是 近朱者赤,近墨者黑 由你的鄰居來推斷出你的類別。本質上,knn演算法就是用距離來衡量樣...

《資料探勘(完整版)》筆記 最近鄰分類器

決策樹和基於規則的分類器是積極學習方法的例子,因為如果訓練資料可用,衙門就開始學習從輸入屬性到類標號的對映模型。與之相反的策略是推遲對訓練資料的建模,知道需要分類測試樣例時再進行,採用這種策略的技術被稱為消極學習方法 消極學習方法的乙個例子是rote分類器,它記住整個訓練資料,僅當測試例項的屬性和某...

資料探勘之模型初探

由於我要打的比賽是做乙個二分類 器,所以就開始找到有關的模型進行了解學習。常見的分類模型如下 邏輯回歸 logistic regression,lr 樸素貝葉斯 bayes,nb k近鄰 k nearest neighbors,knn 決策樹 decision tree,dt 支援向量機 suppo...