文獻筆記 短文本分析

2021-07-01 22:48:09 字數 434 閱讀 4860

基於稀疏特徵的中文微博短文本聚類方法研究

熊祖濤簡介

目前的主要文字表示模型:vsm,n-gram,類短語串,概念模型,圖模型,事件模型;

vsm:每個文字由特徵項和對應權重表示(t

1,w1

,t2,

w2,.

..,t

n,wn

) ;

特徵降維:文件頻率,資訊增益,chi統計量,互資訊,期望交叉熵

特徵權重的計算方法:布林-,絕對詞頻-,歸一化詞頻權重,tf-idf權重(term frequency-inverse document frequency)

lda(latent dirichlet allocation):文字主題表示能力的三層貝葉斯概率模型,包含詞,主題和文件。

文件到主題服從dirichlet分布,主題到詞服從多項式分布。

短文本分類遇到的bug

1.安裝了包tgrocery,其中引用了classifier 和converter,但是報錯沒有converter的模組 原因 1.改包只能在linux 環境下跑。2.改包使用python 2 寫的。因此,from tgrocery import grocery 會報錯。修改 新增乙個點.之後不會報...

分類演算法 七) 短文本分類

深入做文字分類的同學都知道,短文本分類相對來說比較難。因為較短的文字包含的資訊較少,有時候模型很難學到關鍵特徵。參考 指出 但是對於長文字直接用cnn就不行了,textcnn會比han模型泛化能力差很多。當然如果在textcnn前加一層lstm,這樣效果可以提公升很大。另外還有一點很重要的是,實際使...

2020 12 13 NLP 中文短文本分類

nlp 中文短文本分類 wordcloud 製作詞云 import jieba import pandas as pd import numpy as np from scipy.misc import imread from wordcloud import wordcloud,imagecolo...