機器學習 特徵工程 字典特徵提取

2021-09-24 11:30:07 字數 1004 閱讀 6714

將原始資料轉換為更好地代表**模型的潛在問題的特徵的過程,從而提高了對未知資料的**準確性,直接影響**結果。

對文字等特徵進行特徵值化,為了計算機更好地理解資料

sklearn.feature_extraction

對字典資料進行特徵值化

字典資料抽取

就是把字典中一些類別資料,分別轉換成特徵,數值型別不會轉換

:return:

"""# 例項化

dict

= dictvectorizer(sparse=

false

)# 就是資料的兩種表現方式,加上之後資料程式設計陣列形式

# 呼叫fit_transform

data =

dict

.fit_transform([,

,])print

(dict

.get_feature_names())

# 返回特徵名稱

print

(data)

return

none

if __name__ ==

'__main__'

: dictvec(

)輸出結果:

[『city=上海』, 『city=北京』, 『city=深圳』, 『temperature』]

[[ 0. 1. 0. 100.]

[ 1. 0. 0. 60.]

[ 0. 0. 1. 30.]]

前三列的編碼方式為one-hot方式,為了節約記憶體空間

機器學習 特徵工程之特徵提取

第二部分 特徵提取 備註 1.資料決定了機器學習的上限,而演算法只是盡可能逼近這個上限 這句話很好的闡述了資料在機器學習中的重要性。大部分直接拿過來的資料都是特徵不明顯的 沒有經過處理的或者說是存在很多無用的資料,那麼需要進行一些特徵處理,特徵的縮放等等,滿足訓練資料的要求。2.特徵工程的過程 從資...

特徵工程 特徵提取

特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...

機器學習之字典特徵提取

使用第三方庫sklearn.feature extraction 1 字典特徵提取 2from sklearn.feature extraction import dictvectorizer3 字典特徵提取 4def dict demo 5 data 6 1例項化轉換器物件 預設sparse tr...