本文的內容主要來自於quora上的乙個問題,這裡簡單的做一下總結,感興趣的可檢視原帖:
為了使用機器學習方法處理文字資料,需要找到適合的文字表示形式,對於傳統機器學習方法而言,常用的一種表示方法是將文件轉換為文件-詞項矩陣(document term matrix)。具體就是將多篇文件轉換為資料幀(dataframe),其中:
每個行標籤代表乙個文件(document),相當於乙個例項或乙個樣本。
每個列標籤代表乙個詞項(term),相當於屬性或特徵,每個單元格中的資料也就相當於特徵值。
因此,如果選擇文件-詞項矩陣來表示文字資料,那麼文字特徵提取所要解決的主要問題就有以下兩個:
1、提取哪些詞項??即提取哪些特徵??
2、選擇哪種型別的特徵值??
根據待解決任務的不同,可以考慮的方法有以下幾種:
常見的有:
- 詞頻
- tf-idf
文字特徵提取
注 翻譯自 scikit learn 的 user guide 中關於文字特徵提取部分。文字分析是機器學習的一大應用領域,但是長度不一的字串行是無法直接作為演算法的輸入。為了解決這個問題,scikit learn 提供了幾個常用的文字特徵提取的方法 在這個框架下,特徵和樣本定義為 如此,乙個預料庫可...
(一)特徵提取
特徵提取 特徵的種類在影象領域主要分為點,線,面。線特徵和面特徵對影象資訊利用得更多,因而其分辨性更高。但遺憾的是,由於線特徵和面特徵提取的條件比較苛刻,因此在實際應用中並不廣泛。儘管在slam中也有點線結合的例項,在影象紋理較弱的情況下,線特徵可以發揮更大的用處。但是卻是在增加計算量的同時,提高的...
特徵工程 特徵提取
特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...