文字表示模型

機器學習中的方法：詞袋模型；n-gram 模型；主題模型

詞袋模型

把文字拆成乙個乙個的單詞，如果乙個單詞在非常多的文章裡面都出現，那麼可能是乙個比較通用的詞彙，對於區分某篇文章特殊i吾義的貢獻較小 3，因此對權重做一定懲罰。

n-gram 模型

將文章進行單詞級別的劃分離時候並不是一種好的做法，比如英文中的 natural language processing （自然語言處理）一詞；如果將 natural, language , processing 這 3 個詞拆分開來，所表達的含義與三個詞連續出現時大相徑庭。通常，可以將連續出現的 n 個詞組成的片語（ n-gram ）也作為乙個單獨的恃徵般到向量表示中去，向成 n-gram 模型。

主題模型

主題模型用於從文字庫中發現有代表性的主題，並且能夠計算出每篇文章的主題分布。

深度學習中的方法：詞嵌入

詞嵌入

將詞向量化，核心思想是將每個詞都對映成低維空間（通常 k=50 ～ 300 維）上的向量。卷積神經網路和迴圈神經網路的結構在文字表示中取得了很好的效果，主要是由於官們能夠更好地對文字進行建模，抽取出一些高層的語義特徵。

文字表示模型

文字表示模型

文字表示向量空間模型

文字表示（三）CBOW模型和Skip gram模型

文字表示模型

文字表示模型

文字表示 向量空間模型

文字表示（三）CBOW模型和Skip gram模型

相關推薦

文字表示向量空間模型