一、概述
1.1 在機器學習處理過程中,為了方便相關演算法的實現,通常需要將標籤資料(一般為字串)轉換成整數索引,或者在演算法結束後將整數索引還原成相應標籤。
stringindex:將一列類別型的特徵(或標籤)進行編碼,使其數值化,索引的範圍從0開始,索引的順序為標籤的頻率,出現頻率最高的標籤索引為0,如果輸入為數值型,先將其轉化成字元型再進行編碼
indextostring:與stringindex相反,將整形索引還原成字元型
vectorindexer:如果所有特徵都被集中在乙個向量中,又想對其中某些單個分量進行處理時,可以使用vectorindexer
二、**實現
2.1 使用 stringindex進行轉化
引入所需的類
構建乙個dataframe,設定stringindex的輸入列和輸出列名字
訓練模型
2.2使用indextostring進行轉換
2.3使用vectorindexer進行轉化
匯入相應的包,構建資料集
構建轉化器並進行訓練
通過categorymaps來獲得被轉換的特徵及其對映
將模型應用於原有資料,完成轉換
機器學習總結 資料預處理和特徵工程
實際生產中機器學習的整個過程應該是如下的幾步 後面還將從資料探勘的角度另文進行講解 1.場景選擇 演算法選擇 根據實際問題選擇合適的演算法,是分類還是回歸等,是否需要做特徵抽象,或者特徵縮放 2.資料預處理 缺失值的處理,資料清洗等等 3.特徵工程 包括特徵構建 特徵提取 特徵選擇等 4.模型訓練 ...
機器學習中資料清洗和特徵選擇總結
1.預處理 理解資料及資料特徵 很重要 2.異常樣本資料 3.取樣 資料不均衡問題 1.詞袋法 統計詞頻 2.tf idf tf詞頻,idf逆文件頻率 表示詞在各個文件 現的概率 3.hashtf idf 不計算詞頻,而是計算單詞進行hash後的hash值對應的樣本數量。當計算量太大時用hashtf...
Java學習總結 轉換流和流的操作總結
如何實現讀取鍵盤錄入?system.out 對應的是標準輸出裝置,控制台 system.in 對應的標準輸入裝置,鍵盤 inputstream in system.in int by in.read system.out.println by 結束錄入 in.close 轉換流 讀取轉換流 inpu...