Spark特徵提取 TF IDF

2021-07-31 22:33:16 字數 784 閱讀 4455

詞頻(term frequency,縮寫為tf)

在一篇文件中出現次數最多的詞是----"的"、"是"、"在"----這一類最常用的詞。它們叫做"停用詞"(stop words),表示對找到結果毫無幫助、必須過濾掉的詞。

還有長度小於2大於10的,數字也過濾掉,根據詞性過濾,留下有實際意義的詞。

用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配乙個"重要性"權重。最常見的詞給予最小的權重,較常見的詞給予較小的權重,較少見的詞給予較大的權重。這個權重叫做"逆文件頻率"(inverse document frequency,縮寫為idf),它的大小與乙個詞的常見程度成反比。

第一步,計算詞頻。

考慮到文章有長短之分,為了便於不同文章的比較,進行"詞頻"標準化。

或者第二步,計算逆文件頻率。

這時,需要乙個語料庫(corpus),用來模擬語言的使用環境。

如果乙個詞越常見,那麼分母就越大,逆文件頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文件都不包含該詞)。log表示對得到的值取對數。

第三步,計算tf-idf。

tf-idf演算法的優點是簡單快速,結果比較符合實際情況。缺點是,單純以"詞頻"衡量乙個詞的重要性,不夠全面,有時重要的詞可能出現次數並不多。而且,這種演算法無法體現詞的位置資訊,出現位置靠前的詞與出現位置靠後的詞,都被視為重要性相同,這是不正確的。(一種解決方法是,對全文的第一段和每一段的第一句話,給予較大的權重。)

特徵提取方法 one hot 和 TF IDF

one hot 和 tf idf是目前最為常見的用於提取文字特徵的方法,本文主要介紹兩種方法的思想以及優缺點。什麼是one hot編碼?one hot編碼,又稱獨熱編碼 一位有效編碼。其方法是使用n位狀態暫存器來對n個狀態進行編碼,每個狀態都有它獨立的暫存器位,並且在任意時候,其中只有一位有效。舉個...

特徵提取方法 one hot 和 TF IDF

one hot 和 tf idf是目前最為常見的用於提取文字特徵的方法,本文主要介紹兩種方法的思想以及優缺點。什麼是one hot編碼?one hot編碼,又稱獨熱編碼 一位有效編碼。其方法是使用n位狀態暫存器來對n個狀態進行編碼,每個狀態都有它獨立的暫存器位,並且在任意時候,其中只有一位有效。舉個...

特徵工程 特徵提取

特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...