機器學習中的方法:詞袋模型;n-gram 模型;主題模型
詞袋模型
把文字拆成乙個乙個的單詞,如果乙個單詞在非常多的文章裡面都出現 , 那麼可能是乙個比較通用的詞彙,對於區分某篇文章特殊i吾義的貢獻較小 3,因此對權重做一定懲罰 。
n-gram 模型
將文章進行單詞級別的劃分離時候並不是一種好的做法,比如英文中的 natural language processing (自然語言處理)一詞;如果將 natural, language , processing 這 3 個詞拆分開來,所表達的含義與三個詞連續出現時大相徑庭 。 通常,可以將連續出現的 n 個詞 組成的片語( n-gram )也作為乙個單獨的恃徵般到向量表示中去,向成 n-gram 模型 。
主題模型
主題模型用於從文字庫中發現有代表性的主題,並且能夠計算出每篇文章的主題分布。
深度學習中的方法:詞嵌入
詞嵌入
將詞向量化, 核心思想是將每個詞都對映成低維空間(通常 k=50 ~ 300 維)上的向量。 卷積神經網路和迴圈神經網路的結構在文字表示中取得了很好的效果,主要是由於官們能夠更好地對文字進行 建模,抽取出一些高層的語義特徵 。
文字表示模型
具體來說,就是將整段文字以詞為單位切分開,然後每篇文章可以表示成乙個長向量,向量中的每一維表示乙個單詞,而該維對應的權重則反應了這個詞在原文章中的重要程度.常用tf idf計算權重,公式為 t f idf t,d tf t,d idf t tf idf t,d tf t,d idf t tf idf...
文字表示 向量空間模型
概念 文字挖掘演算法不能直接在原始文字形式上處理。因此,在預處理階段,將文字轉化為更易計算機識別的資訊,即對文字進行形式化處理。模型 向量空間模型 概率模型 概念模型 向量空間模型 1 主要步驟 1 將文字的基本語言單位 字 詞 片語 短語 抽取,組成特徵項,用tn表示 2 將tn按在文字中的重要性...
文字表示(三)CBOW模型和Skip gram模型
在前面提到的神經網路語言模型 c w模型,都沒有缺少隱藏層,而模型運算的高消耗都在輸入層到隱藏層的矩陣運算中,如果能減少這部分開銷,那麼模型會更加高效。而cbow模型和skip gram模型就屬於這一類模型。cbow模型的思想與c w模型的思想類似 輸入上下文詞語,中心目標詞。與c w模型以優化正樣...