隱含主題模型優缺點:隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體(如人名、地名、機構名和產品名)的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差
典型的聚類演算法:層次聚類(hierarchical clustering)、譜聚類(spectral
clustering)和信任傳播聚類(affinitypropagation)。
層次聚類將資料點按照不同的聚類粒度建立乙個聚類層次樹。這個樹有多層,每一層由它的下一層聚類組成。
譜聚類利用資料相似矩陣的 譜(spectrum)資訊來進行特徵降維,將資料點聚類到少數幾個維度。
信任傳播聚類(affinity propagation, ap)。該演算法是基於訊息傳遞(message passing)技術的。
關鍵詞提取
encoding utf 8 import jieba.analyse as analyse lines 1 open nba.txt encoding utf 8 read print join analyse.extract tags lines 1,topk 20,allowpos 時間 建議...
關鍵詞提取
import jieba.analyse index 2400 print df news content index str.join sequence sequence中用str連線 content s str join content s index print join jieba.anal...
TF IDF 提取關鍵詞
class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...