一、tf-idf模型
詞頻(tf)= 某個詞在文字中出現的次數/該文字中總詞數
或者一種變種的計算方法
詞頻(tf)= 某個詞在文字中出現的次數/該文字中出現次數最多的詞其出現的次數
逆向文件頻(idf)= log(語料庫中所有文件總數/(包含某詞的文件數+1))
注意
- 為了避免分母為0,所以在分母上加1
- 所指的詞個數,一定時刨除了停用詞的計算,甚至時專門的詞表
- 這裡的log,可以取log10、log2甚至時log e,根據實際效果調整
應用場景t
按照完整句子進行分割,即t=
[s1,
s2,.
..,s
n]2. 對於每個句子si
,進行分詞和詞性標註處理,並過濾掉停用詞,只保留指定詞性的單詞,如名詞、動詞、形容詞,即si
=[ti
,1,t
i,2,
...,
ti,n
] ,其中ti
,j g
=(v,
e),其中v
k表示視窗大小,即最多共現k
核心思想:認為每一篇文件doc都是由多個主題topic組成,而每乙個主題topic由多個詞word組成。
通過對語料庫d中所有文件進行分詞或者抽詞處理之後,通過模型訓練,得到兩個概率矩陣:一是每乙個doc對應k個topic的概率;二是每乙個topic對應n個詞組成的詞表的概率。
文字主題模型之潛在語義索引 LSI
在文字挖掘中,主題模型是比較特殊的一塊,它的思想不同於我們常用的機器學習演算法,因此這裡我們需要專門來總結文字主題模型的演算法。本文關注於潛在語義索引演算法 lsi 的原理。在資料分析中,我們經常會進行非監督學習的聚類演算法,它可以對我們的特徵資料進行非監督的聚類。而主題模型也是非監督的演算法,目的...
文字主題與分類(二) 關鍵詞抽取
import jieba.analyse as analyse import pandas as pd df pd.read csv data technology news.csv encoding utf 8 讀取科技類新聞 df df.dropna 去除殘缺資料 lines df.conten...
主題提取 解決方案
用python網路爬蟲和nlp工具構建資料集 爬取過程 呼叫api查詢文章的元資料,包括每篇文章的url 每個url傳送 請求,找到 的正文文字,提取出來。清理文章文字,去除停用詞和標點 使用scikit learn的it idf vectorizer模組 非負矩陣分解 non negative m...