sklearn特徵的提取 上)

2021-09-12 21:32:02 字數 540 閱讀 8965

首先必須知道什麼是特徵工程

特徵工程是通過對原始資料的處理和加工,將原始資料屬性通過處理轉換為資料特徵的過程,屬性是資料本身具有的維度,特徵是資料中所呈現出來的某一種重要的特性,通常是通過屬性的計算,組合或轉換得到的。比如主成分分析就是將大量的資料屬性轉換為少數幾個特徵的過程。某種程度而言,好的資料以及特徵往往是乙個效能優秀模型的基礎。

那麼如何提取好的特徵將是本文主要內容

我們將簡要介紹一些常用的特徵提取方法:

python中的字典儲存特徵是一種常用的做法,其優點是容易理解。但是sklearn的輸入特徵必須是numpyscipy陣列。可以用dictvectorizer從字典中載入特徵轉換成numpy陣列,並且對分類特徵 會採用獨熱編碼(one-hot)

字典特徵提取器:

from sklearn.feature_extraction import d

sklearn特徵的提取 下)

上文特徵的提取 上 詞袋模型的方法很好用,也很直接,但在有些場景下很難使用,比如分詞後的詞彙字典表非常大,達到100萬 此時如果直接使用詞頻向量或tf idf權重向量的方法,將對應的樣本對應特徵矩陣載 入記憶體,有可能將記憶體撐爆,在這種情況下我們該怎麼辦呢?詞袋模型的方法很好用,也很直接,但在有些...

用sklearn進行特徵提取及數值轉換

對自己目前常用的幾種特徵提取方法做個簡要總結。1,將文字資料轉化為特徵向量 其中countvectorizer只考慮詞彙在文字 現的頻率 from sklearn.feature extraction.text import countvectorizer from sklearn.feature ...

sklearn 特徵工程

資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。那特徵工程到底是什麼呢?顧名思義,其本質是一項工程活動,目的是最大限度地從原始資料中提取特徵以供演算法和模型使用。特徵工程就是將文字資料轉化為數字,因為計算機只能識別數字,運算數字 categorical features 分類特徵...