決策樹和基於規則的分類器是積極學習方法的例子,因為如果訓練資料可用,衙門就開始學習從輸入屬性到類標號的對映模型。與之相反的策略是推遲對訓練資料的建模,知道需要分類測試樣例時再進行,採用這種策略的技術被稱為消極學習方法
消極學習方法的乙個例子是rote分類器,它記住整個訓練資料,僅當測試例項的屬性和某個訓練樣例完全匹配才進行分類
使用該方法更靈活的乙個途徑是找出和測試樣例的屬性相對接近的所有訓練樣例。給定樣例z
zz的k-近鄰是指和z
zz距離最近的k個資料點
一旦得到最近鄰表,測試樣例就會根據最近鄰中的多數類進行分類:
多 數表
決:y′
=arg
maxv
∑(xi
,yi∈
dz)i
(v=y
i)多數表決:y' = \underset \sum_i(v=y_i)
多數表決:y
′=va
rgmax
∑(x
i,y
i∈d
z)
i(v=
yi)vv
v是類標號,y
iy_i
yi是乙個最近鄰的類標號,i(⋅
)i(\cdot)
i(⋅)
是示性函式
每個近鄰對分類的影響都一樣,這使得演算法對k
kk的選擇很敏感。降低k
kk的影響的一種途徑就是根據每個最近鄰x
ix_i
xi距離的不同對其作用加權:w=1
d(x′
,xi)
2w=\frac(x',x_i)^2
w=d1(
x′,x
i)2
. 結果使得遠離z
zz的訓練樣例對分類的影響要比那些靠近z
zz的訓練樣例弱一些。使用距離加權表決方案,類標號可以由下面的公式確定
距 離加
權表決:
y′=a
rgma
xv∑(
xi,y
i∈dz
)wi×
i(v=
yi)距離加權表決:y' = \underset \sum_w_i\times i(v=y_i)
距離加權表決
:y′=
varg
max∑
(xi
,yi
∈dz
)wi
×i(
v=yi
)
資料探勘導論 完整版
一 分類演算法 knn神經網路 支援向量機 適用於高維資料 決策樹gini係數 熵係數二 聚類演算法 k 均值 基於原型,劃分型別 不適用密度差別大,形狀差異大 dbscan 基於密度 三 關聯方法 apriori 剪枝支援度 置信度fr growth 四 組合方法 bagging 原理 有放回抽樣...
java IO完整版學習筆記
刪除檔案 string filename d file.separator hello.txt file f new file filename if f.exists else f.mkdir file f new file filename file str f.listfiles if tem...
2018最新小象資料分析和資料探勘 完整版
課程目標 一站式搞定資料分析和資料探勘 豆瓣資料案例,時間序列分析和金融資料,金融.課程目錄 第1 章 第一周回放課 課時1 第一課 一小時理解資料和資料分析與挖掘 課時2 第二課 統計基礎 第2 章 第二週回放課 課時3 第三課 資料預處理 課時4 第四課 理解樣本資料 第3 章 第三週回放課 課...