將原始資料轉換為更好地代表**模型的潛在問題的特徵的過程,從而提高了對未知資料的**準確性,直接影響**結果。
對文字等特徵進行特徵值化,為了計算機更好地理解資料
sklearn.feature_extraction
對字典資料進行特徵值化
字典資料抽取
就是把字典中一些類別資料,分別轉換成特徵,數值型別不會轉換
:return:
"""# 例項化
dict
= dictvectorizer(sparse=
false
)# 就是資料的兩種表現方式,加上之後資料程式設計陣列形式
# 呼叫fit_transform
data =
dict
.fit_transform([,
(dict
.get_feature_names())
# 返回特徵名稱
(data)
return
none
if __name__ ==
'__main__'
: dictvec(
)輸出結果:
[『city=上海』, 『city=北京』, 『city=深圳』, 『temperature』]
[[ 0. 1. 0. 100.]
[ 1. 0. 0. 60.]
[ 0. 0. 1. 30.]]
前三列的編碼方式為one-hot方式,為了節約記憶體空間
機器學習 特徵工程之特徵提取
第二部分 特徵提取 備註 1.資料決定了機器學習的上限,而演算法只是盡可能逼近這個上限 這句話很好的闡述了資料在機器學習中的重要性。大部分直接拿過來的資料都是特徵不明顯的 沒有經過處理的或者說是存在很多無用的資料,那麼需要進行一些特徵處理,特徵的縮放等等,滿足訓練資料的要求。2.特徵工程的過程 從資...
特徵工程 特徵提取
特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...
機器學習之字典特徵提取
使用第三方庫sklearn.feature extraction 1 字典特徵提取 2from sklearn.feature extraction import dictvectorizer3 字典特徵提取 4def dict demo 5 data 6 1例項化轉換器物件 預設sparse tr...