LDA在短文本(twiter)應用

2021-06-19 20:20:44 字數 563 閱讀 7159

參考文獻《empirical study of topic modeling in twitter.》

這個文章考察了lda在twitter中的應用,用的是最原始的lda,關鍵點在於如何融合出合適的維度的訓練集合,以及不同方式訓練出的lda的效果

訓練集合的融合策略有

1.直接單條twit

2.同user的twit作為乙個doc

3.出現同term的twit作為乙個doc

值得關注結論主要有3點

1.按以上3種方式融合生成doc,訓練出的topic差異比較大,其中1的t數量大於2和3

2.對於單個twit進行分類時,訓練集合效果2lda>1lda>tfidf, 說明對短的測試集合,tm有明顯效果,且長文字訓練tm效果較好,其中3效果可能在2~1之間吧?

3.對於user的twit分類,效果是tfidf>tm,說明tm在長文字上並不能提高效果。

2,3實驗中,tfidf+tm的組合不一定能提高效果。

(我自己希望測試一下,2訓練後對於短文本的短的容忍極限,以及如果按照某種策略融合後再區分成單條twiter後效果是否能提高?後續測量後放在這裡吧~)

LDA小結及在gensim中的應用

首先,感謝rickjin的 lda數學八卦 能兼具如此數學功底和寫作功底的人,著實不多。這是我的個人的思路小結,沒有數學推導,如果想仔細研究,推薦大家去閱讀那篇八卦,寫的很精彩。lda是nlp領域乙個非常重要的非監督演算法。一直想仔細研究一番。看完rickjin的 lda數學八卦 不說理解透徹,這個...

短文本相似度 編輯距離演算法及其應用

最近因為在做短文本字串相似度比較的事情,重溫了一下編輯距離演算法及其應用。編輯距離,又稱levenshtein距離,是指兩個字串之間,由乙個轉成另乙個所需的最少編輯操作次數。許可的編輯操作包括將乙個字元替換成另乙個字元,插入乙個字元,刪除乙個字元。例如將kitten一字轉成sitting kitte...

awk 命令在處理文字中的應用

awk命令在處理文字中很方便,最近總結了一些awk的具體應用。1 awk引數介紹 先寫乙個常用命令 cat 4653 trans out awk f f 是文字中的每一行按逗號分割 0 是文字中的每一行 1 是文字中每一行切割後的第乙個字段 awk內建變數介紹 記錄變數 fs field separ...