待處理的資料:150*150的灰度,除分析目標外,背景已經抹0
需要實現的目標:背景數字0不變,對其餘數字做乙個歸一化處理
對list處理可以用
a=list(set(a)) # 實現了去除重複元素並排序
對array處理可以用np.unique()這個函式,可以去除其中重複的元素,並按元素由大到小返回乙個新的無元素重複的元組或者列表
importnumpy as np
a = [1, 2, 2, 3, 4, 3]
a =np.unique(a)
print(a) #
輸出為 [1 2 3 4]
a, b, c = np.unique(a, return_index=true, return_inverse=true)
print(a, b, c) #
輸出為 [1 2 3 4], [0 1 3 4], [0 1 1 2 3 2]
發現乙個函式非常適合了:np.where()
img = (img-min)/(max-min)arr = np.where(img <= 1, img, 0)
numpy.
where
(condition, [x, y])
1、這裡x,y是可選引數,condition是條件,這三個輸入引數都是array_like的形式;而且三者的維度相同
2、當conditon的某個位置的為true時,輸出x的對應位置的元素,否則選擇y對應位置的元素;
3、如果只有引數condition,則函式返回為true的元素的座標位置資訊;
今天還學到了乙個新函式記錄一下:
np.maximum:(x, y, out=none)
1、x 與 y 逐位比較取其大者;
2、最少接收兩個引數
總結:對numpy庫還非常不熟悉,要慢慢學習。
機器學習 資料預處理
均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...
機器學習 資料預處理
1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...