1 連續資料特徵離散化的方法
由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。
主要方法:
1) 等距離散:取值範圍均勻劃分成n 等分,每份的間距相等。
2) 等頻離散:均勻分為n 等分,每份內包含的觀察點數相同
3) 優化離散:3-1 卡方檢驗方法: 統計樣本的實際觀測值與理論判斷值之間的離散程度,卡方值越大,越不符合,卡方值越小,偏差越小,越趨於符合。
**方法: 找到乙個**點看,左右2個區間,在目標值上分布是否有顯著差異,有顯著差異就**,否則就忽略,這個點可以沒詞找差異最大的點。
合併方法:先劃分,如果很小單元區間,按順序合併在目標值上分布不顯著的相鄰區間,直接收斂。
2 資訊增益方法:
**方法: 找到乙個**點看,左右2個區間,看**前後資訊增益變化閾值,如果差值超過閾值( 正值,**前-**後資訊熵),,則**,每次找差值最大的點做**點,直到收斂,
合併方法: 先劃分,如果很小單元區間,按順序合併資訊增益小於閾值的相鄰區間,直到收斂。
機器學習 資料預處理
均值為0,標準差為1 from sklearn import preprocessing scaler preprocessing.standardscaler scaler.fit transform x 對原始資料進行線性變換,變換到 0,1 區間 也可以是其他固定最小最大值的區間 from s...
機器學習python資料預處理
from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...
機器學習之資料預處理
1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...