1. 使用 columntransformer 對 dataframe 不同的列分別進行不同的處理
from sklearn.preprocessing import onehotencoder
from sklearn.impute import ******imputer
from sklearn.compose import columntransformer # 用到的函式,需要 scikit-learn 0.2以上的版本
ohe = onehotencoder()
si = ******imputer()
ct = columntransfomer(
(ohe, ['c1', 'c2']), # 對 c1, c2 列進行 onehot 編碼
(si, ['c3']), # 對 c3 進行 ******impute
remainder='passthrough' # 引數表示對上面沒列出的剩下的列進行怎樣的處理,引數值為 passthrough 表示保留原來的值
)ct.fit_transform(x)
2. Scikit learn技巧(拓展)總結
估計器,很多時候可以直接理解成分類器,主要包含兩個函式 轉換器用於資料預處理和資料轉換,主要是三個方法 sklearn.pipeline包 流水線的功能 基本使用方法 流水線的輸入為一連串的資料探勘步驟,其中最後一步必須是估計器,前幾步是轉換器。輸入的資料集經過轉換器的處理後,輸出的結果作為下一步的...
scikit learn 使用指南
一般來說,機器學習問題可以這樣來理解 我們有n個 樣本 sample 的資料集,想要 未知資料的屬性。如果描述每個樣本的數字不只乙個,比如乙個多維的條目 也叫做 多變數資料 multivariate data 那麼這個樣本就有多個屬性或者 特徵 我們可以將學習問題分為以下幾類 scikit lear...
Scikit learn 方法使用總結
在機器學習和資料探勘的應用中,scikit learn是乙個功能強大的python包。在資料量不是過大的情況下,可以解決大部分問題。近期在學習使用scikit learn的過程中,我自己也在補充著機器學習和資料探勘的知識。以下是我做乙個總結的筆記。後續會結合競賽實操。常直接理解成分類器,主要包含兩個...