機器學習資料預處理之二值化

用0和1來表示樣本矩陣中相對於某個給定閾值高於或者低於它的元素

作用：一般用在影象處理（將影象分成黑和白常用的方法就是設定乙個閾值t，用t將影象的資料分成兩部分：大於t的畫素群和小於t的畫素群）

import  numpy as np
sample = np.array([[
2,4,
5,-1
],[3
,1,7
,-2]
,[6,
-3,2
,-1]
,], dtype=
"float"
)s = sample.copy(
)s[s<=3]
=0#必須先對小的閾值進行判
s[s>3]
=1print
(s)

import  numpy as np
import  sklearn.preprocessing as sp
sample = np.array([[
2,4,
5,-1
],[3
,1,7
,-2]
,[6,
-3,2
,-1]
,], dtype=
"float"
)bin
= sp.binarizer(threshold=3)
#生成乙個閾值為3的二值化器
new_sample =
bin.transform(sample)
#用二值化器對樣本進行轉換
print
(new_sample)

機器學習資料特徵預處理缺失值處理

刪除如果行或列資料缺失值達到一定比例，建議放棄整行或列插補填補列的平均值，中位數 numpy陣列中的缺失值 nan nan 屬於float型別 from sklearn.preprocessing import imputer import numpy as np 缺失值處理 data 1,1...

機器學習資料預處理

均值為0，標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換，變換到 0,1 區間也可以是其他固定最小最大值的區間 from s...

機器學習資料預處理

1 連續資料特徵離散化的方法由於lr 中模型表達能力有限，可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散取值範圍均勻劃分成n 等分，每份的間距相等。2 等頻離散均勻分為n 等分，每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法統計樣本的實際觀測值與理論判斷值之間的...

機器學習 資料預處理之二值化

機器學習 資料特徵預處理缺失值處理

機器學習 資料預處理

機器學習 資料預處理

相關推薦

機器學習資料預處理之二值化

機器學習資料特徵預處理缺失值處理

機器學習資料預處理

機器學習資料預處理