傳統的tf-idf演算法中,僅考慮了詞的兩個統計資訊(出現頻次、在多少個文件出現),因此,其對文字的資訊利用程度顯然也是很少的。
演算法本身的定義是死的,但是結合我們的應用場景,對演算法進行合適的重塑及改造,使之更適應對應場景的應用環境,無疑能對我們想要得到的結果起到更好的指導作用。
textrank演算法,基本思想**於google的pagerank演算法,最早用於文件的自動摘要,基於句子維度的分析,利用textrank對每個句子進行打分,挑選出分數最高的n個句子作為文件的關鍵句,以達到自動摘要的效果。
主題模型:與前面兩種模型不同的是,主題模型認為在詞與文件之間沒有直接的聯絡,它們應當還有乙個維度將它們串聯起來,主題模型將這個維度稱為主題。每個文件都應該對應著乙個或多個的主題,而每個主題都會有對應的詞分布,通過主題,就可以得到每個文件的詞分布。相較於傳統svm模型(space vector model,空間向量模型)對語義資訊利用的缺乏,lsa通過svd(奇異值分解)將詞、文件對映到乙個低維的語義空間,挖掘出詞、文件的淺層語義資訊,從而對詞、文件進行更本質地表達。這也反映了lsa的優點,可以對映到低維的空間,並在有限利用文字語義資訊的同時,大大降低計算的代價,提高分析質量。
lsa是通過svd這一暴力的方法,簡單直接地求解出近似的word-topic-document分布資訊。但是其作為乙個初級的主題模型,仍然存在著許多的不足。其中主要的缺點是:
1. svd的計算複雜度非常高,特徵空間維度較大的,計算效率十分低下。
2. 另外,lsa得到的分布資訊是基於已有資料集的,當乙個新的文件進入到已有的特徵空間時,需要對整個空間重新訓練,以得到加入新文件後對應的分布資訊。
3. 除此之外,lsa還存在著對詞的頻率分布不敏感、物理解釋性薄弱等問題。
為了解決這些問題,學者們在lsa的基礎上進行了改進,提出了plsa演算法,通過使用em演算法對分布資訊進行擬合替代了使用svd進行暴力破解,從一定程度上解決了lsa的部分缺陷,但是lsa仍有較多不足。通過不斷探索,學者們又在plsa的基礎上,引入了貝葉斯模型,實現了現在topic model的主流方法——lda(latentdirichlet allocation,隱含狄利克雷分布)。
關鍵詞提取
隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...
關鍵詞提取
encoding utf 8 import jieba.analyse as analyse lines 1 open nba.txt encoding utf 8 read print join analyse.extract tags lines 1,topk 20,allowpos 時間 建議...
關鍵詞提取
import jieba.analyse index 2400 print df news content index str.join sequence sequence中用str連線 content s str join content s index print join jieba.anal...