俗話說「磨刀不誤砍材工」,在機器學習領域,進行特徵工程相關的工作就相當於磨刀了。那麼,什麼是特徵工程呢?通俗來講,特徵工程就是為了使模型在未知資料集上獲得更好**精度而對原始資料集進行轉換的一系列過程。
特徵工程的具體過程則由以下四點決定:
1、評估模型優劣的方法、指標是什麼?(rmse還是auc等)
2、要解決的問題屬於分類問題還是回歸問題..
3、具體使用的模型是什麼?(決策樹、svm還是什麼)
4、原始資料的形態?是否抽樣、是否為結構化資料?是否進行了資料清理等
一、特徵提取,從原始資料中自動構造新特徵:
通常得到的原始資料,比如音訊、影象、文字等,使用列表資料表示時,其原始特徵集通常可大數百萬維。如此高的維數,怎麼將它的維數減小並利於建模,就是特徵提取需要做的事情了。特徵提取的方法因具體領域而不同,對於列表資料,可以使用pca、cca等方法進行降維,提取重要的特徵表示;對於影象音訊資料,小波分析、傅利葉分析等訊號處理領域的一些通用方法都可以借鑑。
二,特徵選取,從大量特徵中選取有有用的特徵:
通常經過特徵提取步驟得到的特徵量依然較大,在大量特徵中,需要識別出哪些特徵有利於提高模型質量。一般從一下三方面進行考慮:1、特徵與待解決問題的相關性 2、特徵對模型精度的影響 3、特徵彼此間存在的冗餘性。從這三個方面考慮後,將一些不必要的特徵從特徵集中去除,將得到乙個更優質的特徵集。一些通用的方法包括:1、使用卡方檢驗獲得特徵與待解決問題間的相關性,2、使用決策樹選取分類、回歸精度高的特徵 3、使用皮爾遜相關係數檢驗特徵間的相關性。去除冗餘性。
三,特徵構造:由人工從原始資料集中構造出新特徵:
原始資料集中存在的部分模式、結構上的資訊,需要由人進行總結提取。對應於自動特徵提取,這一部分可以稱之為人工特徵提取。這一部分主要依賴於從業人員的經驗、直覺,同時可以借助一些統計工具、指標,進行探索性的提取新特徵。能不能有效果,就看機緣和人品了。
四,特徵學習,從原始資料集中自動識別和使用特徵:
特徵提取,特徵選取,特徵構造無不依賴於人工 或定義特徵 或定義獲得特徵的方法,同時原始資料集也依賴於人工方式進行轉換,特徵處理在建模過程中依然是個棘手的問題。目前主要借助深度學習的思路,使用自編碼或者受限波爾茲曼機來進行特徵提取。
總的來說,特徵工程怎麼做,還是取決於具體的資料和業務,做的好不好在,直接關係到模型的輸出效果。
機器學習中的特徵工程總結一
俗話說 磨刀不誤砍材工 在機器學習領域,進行特徵工程相關的工作就相當於磨刀了。那麼,什麼是特徵工程呢?通俗來講,特徵工程就是為了使模型在未知資料集上獲得更好 精度而對原始資料集進行轉換的一系列過程。特徵工程的具體過程則由以下四點決定 1 評估模型優劣的方法 指標是什麼?rmse還是auc等 2 要解...
機器學習中特徵工程總結
構造更多 的特徵 檢視資料列名 print data train.columns 檢視資料每列資訊 數目,空置和型別 print data train.info 檢視每列統計資訊 數目 均值 方差 最小值 25 分位值 50 分位值 75 分位值和最大值 print data train.descr...
機器學習 特徵工程(一)
類 sklearn.feature extraction.dictvectorizer 語法結構 dictvectorizer sparse true,方法 dictvectorizer.fit transform x x 字典或者包含 字典的迭代器 返回值 返回 sparse矩陣 dictvect...