資料處理相關

資料集分為特徵值和目標值

由特徵值得到目標值

對特徵值的處理為特徵工程

1、缺失值處理

2、重複值的去重

特徵工程的意義：提高對未知資料的**

字典特徵資料抽取

對字串轉成數字的，

類：sklearn.feature_extraction.dictvectorizer

文字特徵抽取

類：sklearn.feature_extraction.text.countvectorizer

中性詞語

分類時，文章都出現所以，明天，我們那麼都歸為一類？？

類：sklearn.feature_extraction.text.tfidfvectorizer

tf idf

最終相乘的結果

tf:term_frequency:：詞的頻率出現的次數

idf:inverse document frequency 逆文件頻率 log(總文件數量/該詞出現的文件數量)

歸一化及標準化

資料降緯主成分分析（pca）

找到一條最好的直線或者平面

特徵數量達到上百的時候

資料也會改變，特徵數量也會減少

轉化器

fit_transform():輸入資料直接轉換

fit():輸入資料，但不做事情

+transform():進行資料的轉換

估計器

實現演算法

python資料處理相關

1.enumerate sequence,start 0 函式列舉函式,傳入乙個序列或迭代物件，列舉輸出乙個序號物件。可用於對序列資料進行編號。2.字串的split 方法和strip 方法同屬字串物件的方法。split 方法用於指定分割字元並返回乙個字串列表。strip 方法用於去除掉首位的指定...

資料處理相關的優化

等深層機制應用和研究，只是些膚淺應用和建議關於資料處理相關的優化一 sqldataread 和dataset 的選擇 sqldataread優點讀取資料非常快。如果對返回的資料不需做大量處理的情況下，建議使用sqldatareader，其效能要比datset好很多。缺點直到資料讀完才可clo...

時間顆粒度相關資料處理

原始資料為顆粒度1秒資料，下面的方法裡可以自定義時間顆粒度，獲取處理後的資料！arr1 array array time 1523714540,pv 50,exec 20 array time 1523714541,pv 40,exec 10 array time 1523714542,pv 30,...

資料處理相關

python資料處理相關

資料處理相關的優化

時間顆粒度相關資料處理

相關推薦