機器學習 資料預處理之二值化

2021-10-02 19:08:39 字數 856 閱讀 8672

用0和1來表示樣本矩陣中相對於某個給定閾值高於或者低於它的元素

作用:一般用在影象處理 (將影象分成黑和白 常用的方法就是設定乙個閾值t,用t將影象的資料分成兩部分:大於t的畫素群和小於t的畫素群)

import  numpy as np

sample = np.array([[

2,4,

5,-1

],[3

,1,7

,-2]

,[6,

-3,2

,-1]

,], dtype=

"float"

)s = sample.copy(

)s[s<=3]

=0#必須先對小的閾值進行判

s[s>3]

=1print

(s)

import  numpy as np

import sklearn.preprocessing as sp

sample = np.array([[

2,4,

5,-1

],[3

,1,7

,-2]

,[6,

-3,2

,-1]

,], dtype=

"float"

)bin

= sp.binarizer(threshold=3)

#生成乙個閾值為3的二值化器

new_sample =

bin.transform(sample)

#用二值化器對樣本進行轉換

print

(new_sample)

機器學習 資料特徵預處理缺失值處理

刪除 如果行或列資料缺失值達到一定比例,建議放棄整行或列 插補 填補列的平均值,中位數 numpy陣列中的缺失值 nan nan 屬於float型別 from sklearn.preprocessing import imputer import numpy as np 缺失值處理 data 1,1...

機器學習 資料預處理

均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...

機器學習 資料預處理

1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...