資料集分為特徵值和目標值
由特徵值得到目標值
對特徵值的處理為特徵工程
1、缺失值處理
2、重複值的去重
特徵工程的意義:提高對未知資料的**
字典特徵資料抽取
對字串轉成數字的,
類:sklearn.feature_extraction.dictvectorizer
文字特徵抽取
類:sklearn.feature_extraction.text.countvectorizer
中性詞語
分類時,文章都出現 所以,明天,我們 那麼都歸為一類??
類:sklearn.feature_extraction.text.tfidfvectorizer
tf idf
最終相乘的結果
tf:term_frequency::詞的頻率 出現的次數
idf:inverse document frequency 逆文件頻率 log(總文件數量/該詞出現的文件數量)
歸一化及標準化
資料降緯主成分分析(pca)
找到一條最好的直線或者平面
特徵數量達到上百的時候
資料也會改變,特徵數量也會減少
轉化器
fit_transform():輸入資料直接轉換
fit():輸入資料,但不做事情
+transform():進行資料的轉換
估計器
實現演算法
python資料處理相關
1.enumerate sequence,start 0 函式 列舉函式,傳入乙個序列或迭代物件,列舉輸出乙個序號物件。可用於對序列資料進行編號。2.字串的split 方法和strip 方法 同屬字串物件的方法。split 方法用於指定分割字元並返回乙個字串列表。strip 方法用於去除掉首位的指定...
資料處理相關的優化
等深層機制應用和研究,只是些膚淺應用和建議 關於資料處理相關的優化 一 sqldataread 和dataset 的選擇 sqldataread優點 讀取資料非常快。如果對返回的資料不需做大量處理的情況下,建議使用sqldatareader,其效能要比datset好很多。缺點 直到資料讀完才可clo...
時間顆粒度相關資料處理
原始資料為顆粒度1秒資料,下面的方法裡可以自定義時間顆粒度,獲取處理後的資料!arr1 array array time 1523714540,pv 50,exec 20 array time 1523714541,pv 40,exec 10 array time 1523714542,pv 30,...