sklearn特徵的提取 下)

2021-09-12 21:48:05 字數 359 閱讀 6913

上文特徵的提取(上)

詞袋模型的方法很好用,也很直接,但在有些場景下很難使用,比如分詞後的詞彙字典表非常大, 達到100萬+,此時如果直接使用詞頻向量或tf-idf權重向量的方法,將對應的樣本對應特徵矩陣載 入記憶體,有可能將記憶體撐爆,在這種情況下我們該怎麼辦呢?

詞袋模型的方法很好用,也很直接,但在有些場景下很難使用,比如分詞後的詞彙字典表非常大, 達到100萬+,此時如果直接使用詞頻向量或tf-idf權重向量的方法,將對應的樣本對應特徵矩陣載 入記憶體,有可能將記憶體撐爆,在這種情況下我們該怎麼辦呢?

我們可以應用雜湊技巧進行降維。

hash函式可以將乙個任意長度的字串對映到乙個固定長度的雜湊數字中去。hash函式是一種典 型的多對一對映。

sklearn特徵的提取 上)

首先必須知道什麼是特徵工程 特徵工程是通過對原始資料的處理和加工,將原始資料屬性通過處理轉換為資料特徵的過程,屬性是資料本身具有的維度,特徵是資料中所呈現出來的某一種重要的特性,通常是通過屬性的計算,組合或轉換得到的。比如主成分分析就是將大量的資料屬性轉換為少數幾個特徵的過程。某種程度而言,好的資料...

用sklearn進行特徵提取及數值轉換

對自己目前常用的幾種特徵提取方法做個簡要總結。1,將文字資料轉化為特徵向量 其中countvectorizer只考慮詞彙在文字 現的頻率 from sklearn.feature extraction.text import countvectorizer from sklearn.feature ...

sklearn 特徵工程

資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。那特徵工程到底是什麼呢?顧名思義,其本質是一項工程活動,目的是最大限度地從原始資料中提取特徵以供演算法和模型使用。特徵工程就是將文字資料轉化為數字,因為計算機只能識別數字,運算數字 categorical features 分類特徵...