import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv(
"./data/technology_news.csv"
, encoding=
'utf-8'
)#讀取科技類新聞
df = df.dropna(
)#去除殘缺資料
lines=df.content.values.tolist(
)content =
"".join(lines)
#文字內容連線,用結吧分詞
(" "
.join(analyse.extract_tags(content, topk=
30, withweight=
false
, allowpos=())))
以固定視窗大小(預設為5,通過span屬性調整),詞之間的共現關係,構建圖
計算圖中節點的pagerank,注意是無向帶權圖
import jieba.analyse as analyse
import pandas as pd
df = pd.read_csv(
"./data/military_news.csv"
, encoding=
'utf-8'
)#軍事資訊
df = df.dropna(
)lines=df.content.values.tolist(
)content =
"".join(lines)
print
(" "
.join(analyse.textrank(content, topk=
20, withweight=
false
, allowpos=
('ns'
,'n'
,'vn'
,'v'))
))#允許的詞性
print
("---------------------我是分割線----------------"
#匯入執行庫
import jieba.analyse as analyse
import pandas as pd
from gensim import corpora, models, similarities
import gensim
#載入停用詞
stopwords=pd.read_csv(
"data/stopwords.txt"
,index_col=
false
,quoting=
3,sep=
"\t"
,names=
['stopword'
], encoding=
'utf-8'
)stopwords=stopwords[
'stopword'
].values
#轉換格式
import jieba
import pandas as pd
df = pd.read_csv(
"./data/technology_news.csv"
, encoding=
'utf-8'
)df = df.dropna(
)lines=df.content.values.tolist(
)sentences=
for line in lines:
try:
segs=jieba.lcut(line)
segs =
list
(filter
(lambda x:
len(x)
>
1, segs)
)#過濾掉不符合條件的元素
segs =
list
(filter
(lambda x:x not
in stopwords, segs)
)except exception:
print
(line)
continue
#詞袋模型
dictionary = corpora.dictionary(sentences)
#建立詞袋,類似於one-hot
corpus =
[dictionary.doc2bow(sentence)
for sentence in sentences]
#lda建模
文字主題提取
一 tf idf模型 詞頻 tf 某個詞在文字中出現的次數 該文字中總詞數 或者一種變種的計算方法 詞頻 tf 某個詞在文字中出現的次數 該文字中出現次數最多的詞其出現的次數 逆向文件頻 idf log 語料庫中所有文件總數 包含某詞的文件數 1 注意 為了避免分母為0,所以在分母上加1 所指的詞個...
文字主題模型之潛在語義索引 LSI
在文字挖掘中,主題模型是比較特殊的一塊,它的思想不同於我們常用的機器學習演算法,因此這裡我們需要專門來總結文字主題模型的演算法。本文關注於潛在語義索引演算法 lsi 的原理。在資料分析中,我們經常會進行非監督學習的聚類演算法,它可以對我們的特徵資料進行非監督的聚類。而主題模型也是非監督的演算法,目的...
人機文字分類特徵構造 主題分布
包含獲取並安裝第三方依賴的過程 sh build.sh cd model sh download model.sh 實驗過程 該demo檔案在終端下是能正常執行,不過在呼叫python介面時總會出現以下錯誤 若出現找不到libglog.so,libgflags.so等動態庫錯誤,請新增third p...