資料處理
機器學習
業務運維
1. 資料收集 (資料檢索、資料探勘、爬蟲)2. 資料清洗3. 特徵工程
1. 選擇模型 (演算法)2. 訓練模型 (演算法)3. 評估模型 (工具、框架、演算法知識)4. 測試模型
1. 應用模型2. 維護模型
import sklearn.preprocessing as sp
# 均值移除可以讓樣本矩陣中的每一列的平均值為0,標準差為1。
a = sp.scale(array)
# 建立minmax縮放器
mms = sp.minmaxscaler(feature_range=(0
,1))
# 呼叫mms物件的方法執行縮放操作, 返回縮放過後的結果
result = mms.fit_transform(原始樣本矩陣)
# array 原始樣本矩陣
# norm 範數
# l1範數,元素絕對值之和。l1可以實現稀疏化。
# l2範數,元素平方之和。l2避免過擬合
sp.normalize(array, norm=
'l1'
)
# 給出閾值, 獲取二值化器
bin= sp.binarizer(threshold=閾值)
# 呼叫transform方法對原始樣本矩陣進行二值化預處理操作
result =
bin.transform(原始樣本矩陣)
ohe = sp.onehotencoder(sparse=是否採用緊縮格式, dtype=資料型別)
# 對原始樣本矩陣進行處理,返回獨熱編碼後的樣本矩陣。
result = ohe.fit_transform(原始樣本矩陣)
lbe = sp.labelencoder(
)# 呼叫標籤編碼器的fit_transform方法訓練並且為原始樣本矩陣進行標籤編碼
result = lbe.fit_transform(原始樣本陣列)
# 根據標籤編碼的結果矩陣反查字典 得到原始資料矩陣
samples = lbe.inverse_transform(result)
機器學習之資料預處理
1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...
機器學習之資料預處理
from sklearn.preprocessing import standardscaler x scaler standardscaler y scaler standardscaler x train x scaler.fit transform x train y train y scal...
機器學習之資料預處理
資料預處理方法 均值移除 範圍縮放 二值化歸一化 獨熱編碼 標籤編碼 直接呼叫api介面進行處理 輸入 輸出 0.5 5.0 0.6 5.5 0.8 6.0 1.1 6.8 1.4 7.0 y f x 函式 y w0 w1x x 輸入 y 輸出 w0和w1 模型引數 所謂模型訓練,就是根據已知的x和...