文字主題與分類(二) 關鍵詞抽取

2021-09-19 13:07:12 字數 2851 閱讀 4600

import jieba.analyse as analyse

import pandas as pd

df = pd.read_csv(

"./data/technology_news.csv"

, encoding=

'utf-8'

)#讀取科技類新聞

df = df.dropna(

)#去除殘缺資料

lines=df.content.values.tolist(

)content =

"".join(lines)

#文字內容連線,用結吧分詞

print

(" "

.join(analyse.extract_tags(content, topk=

30, withweight=

false

, allowpos=())))

以固定視窗大小(預設為5,通過span屬性調整),詞之間的共現關係,構建圖

計算圖中節點的pagerank,注意是無向帶權圖

import jieba.analyse as analyse

import pandas as pd

df = pd.read_csv(

"./data/military_news.csv"

, encoding=

'utf-8'

)#軍事資訊

df = df.dropna(

)lines=df.content.values.tolist(

)content =

"".join(lines)

print

(" "

.join(analyse.textrank(content, topk=

20, withweight=

false

, allowpos=

('ns'

,'n'

,'vn'

,'v'))

))#允許的詞性

print

("---------------------我是分割線----------------"

#匯入執行庫

import jieba.analyse as analyse

import pandas as pd

from gensim import corpora, models, similarities

import gensim

#載入停用詞

stopwords=pd.read_csv(

"data/stopwords.txt"

,index_col=

false

,quoting=

3,sep=

"\t"

,names=

['stopword'

], encoding=

'utf-8'

)stopwords=stopwords[

'stopword'

].values

#轉換格式

import jieba

import pandas as pd

df = pd.read_csv(

"./data/technology_news.csv"

, encoding=

'utf-8'

)df = df.dropna(

)lines=df.content.values.tolist(

)sentences=

for line in lines:

try:

segs=jieba.lcut(line)

segs =

list

(filter

(lambda x:

len(x)

>

1, segs)

)#過濾掉不符合條件的元素

segs =

list

(filter

(lambda x:x not

in stopwords, segs)

)except exception:

print

(line)

continue

#詞袋模型

dictionary = corpora.dictionary(sentences)

#建立詞袋,類似於one-hot

corpus =

[dictionary.doc2bow(sentence)

for sentence in sentences]

#lda建模

文字主題提取

一 tf idf模型 詞頻 tf 某個詞在文字中出現的次數 該文字中總詞數 或者一種變種的計算方法 詞頻 tf 某個詞在文字中出現的次數 該文字中出現次數最多的詞其出現的次數 逆向文件頻 idf log 語料庫中所有文件總數 包含某詞的文件數 1 注意 為了避免分母為0,所以在分母上加1 所指的詞個...

文字主題模型之潛在語義索引 LSI

在文字挖掘中,主題模型是比較特殊的一塊,它的思想不同於我們常用的機器學習演算法,因此這裡我們需要專門來總結文字主題模型的演算法。本文關注於潛在語義索引演算法 lsi 的原理。在資料分析中,我們經常會進行非監督學習的聚類演算法,它可以對我們的特徵資料進行非監督的聚類。而主題模型也是非監督的演算法,目的...

人機文字分類特徵構造 主題分布

包含獲取並安裝第三方依賴的過程 sh build.sh cd model sh download model.sh 實驗過程 該demo檔案在終端下是能正常執行,不過在呼叫python介面時總會出現以下錯誤 若出現找不到libglog.so,libgflags.so等動態庫錯誤,請新增third p...