資料是什麼?資料就是一組物件及其屬性的集合,其中屬性定義為物件的特徵或性質。真實資料在應用前基本都有經過預處理,以便在機器學習演算法中使用。本次資料預處理方法的總結是基於推薦系統設計進行展開的,其中包括相似度的度量方法、抽樣以及降維技術這三個尤為重要的問題。
d (x
,y)=
∑k=1
n(xk
−yk)
2}(x,y) = \sqrt ^n }
d(x,y)
=k=1
∑n(
xk−
yk)
2其中,n是維數(屬性數),xkxk
和yk
yk分別是資料物件x和y的第k個屬性值。 d(x
,y)=
(∑k=
1n∣x
k−yk
∣r)1
r}(x,y) = (\sum\limits_^n )^}
d(x,y)
=(k=
1∑n
∣xk
−yk
∣r)r
1其中,r是距離的度(引數)。取決於r值的不同,一般的閔可夫斯基距離有專用的名稱:
r=1,城市街區(也叫曼哈頓距離、計程車、l1範數)距離。
r=2,歐幾里得距離(l2範數)。
r=∞
\infty
∞,上確界(l
max
l_lmax或l
∞l_\infty
l∞範數),這是任意維度物件屬性間的最大距離。 d(x
,y)=
(x−y
)σ−1
(x−y
)t
}(x,y) = \sqrt (x - y)^t }
d(x,y)
=(x−
y)σ−
1(x−
y)t
其中,σ
\sigma
σ是資料的協方差矩陣。
cos(x
,y)=
(x⋅y
)∥x∥
∥y
∥\cos (x,y) = \frac
cos(x,
y)=∥
x∥∥y
∥(x⋅
y)
其中,dot表示向量的點積,∥x∥
∥x∥是向量x的長度。這個相似度稱為余弦相似度或l2範數。 pea
son(
x,y)
=∑(x
,y)σ
x×σy
peason(x,y) = \frac }
peason
(x,y
)=σx
×σy
∑(x
,y)
最後,在一些只有二進位制屬性的物品案例中,可以採用smc或jaccard係數的相似性度量方法。首先,計算m01、m10、m11和m00數量,其中m01表示x是0並且y是1這個屬性的數量,m10表示x是1並且y是0這個屬性的數量,依次類推。據此可計算出簡單匹配係數smc
=m11+
m00m01
+m10+
m00+m
11smc = \frac
smc=m0
1+m1
0+m0
0+m1
1m11
+m00
;jaccard係數jc=
m11m01
+m10+
m11
jc = \frac
jc=m01
+m10
+m11
m11
。廣義jaccard係數,是jc關於連續值屬性或計數屬性的乙個變型,d=x
⋅y∥x
∥2+∥
y∥2−
xy
d = \frac
d=∥x∥2
+∥y∥
2−xy
x⋅y
抽樣的關鍵是發現具有整個原始資料集代表性的子集,也就是說,其具有與整個資料集大概類似的興趣屬性。最簡單的抽樣技術是隨機抽樣,任意物品被選中的概率相同。複雜的有在分層抽樣中資料基於特殊特徵被分成幾個部分,之後對每個部分進行隨機抽樣。
抽樣最常應用的場景是分離訓練集和測試集,比如80/20的比例,並使用不放回的標準隨機抽樣。抽樣可以重複多次,比如k折交叉驗證,當然除非資料集足夠大,否則交叉驗證可能不可信。
主成分分析可以獲得一組有序的成分列表,其根據最小平方誤差計算出變化最大的值。列表中第乙個成分所代表的變化量要比第二個成分所代表的變化量大,依次類推,可以通過忽略這些變化貢獻較小的成分來降低維度。
pca的限制:pca依賴於以先行合併為基礎的經驗資料集,儘管一般的非線性pca方法已經提出。pca的另乙個重要假設是原始資料集是從高斯分布中抽取出來的,當這個假設不正確時,就無法保證主要成分的有效性。
資料探勘中採集的資料可能會有各種雜訊,如缺失資料或異常資料。去噪是非常重要的預處理步驟,其目的是在最大化資訊量時去掉不必要的影響。
一般意義上,雜訊定義為在資料收集階段收集到的一些可能影響資料分析和解釋結果的偽造資料,分為自然和惡意雜訊。前者時使用者在選擇偏好時無意產生的,後者是為了偏離結果在系統中故意引入的。
資料預處理方法總結
資料是機器學習的原料,機器學習是通過對資料的訓練才得到某種特性的。因此正確的預處理資料對模型結果的輸出尤為重要。一 資料可能存在的問題 資料一開始可能有資料重複,資料缺失,資料存在異常值等情況。二 資料預處理的步驟 資料處理主要包括資料的清洗,資料的轉化.資料描述,特徵選擇和特徵抽取這幾個步驟。1 ...
資料預處理方法 總結
在工程實踐中,我們得到的資料會存在有缺失值 重複值等,在使用之前需要進行資料預處理。資料預處理沒有標準的流程,通常針對不同的任務和資料集屬性的不同而不同。資料預處理的常用流程為 去除唯一屬性 處理缺失值 屬性編碼 資料標準化正則化 特徵選擇 主成分分析。唯一屬性通常是一些id屬性,這些屬性並不能刻畫...
資料預處理方法
一.資料清理 1.填出缺失值 無記錄值資料 1 忽略元祖 缺少類標號時使用,適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值 可由回歸 貝葉斯形式化的基於推理的工具或決策樹歸納確定...