1、tf-idf詞頻逆序詞頻
2、textrank
基於圖的模型,網上很多測評說它不一定強過tf-idf,其實對於沒有標註資料的情況,感覺評判好壞真的很艱難。
3、lda
4、word2vec + 聚類
這個方法是看以為網友總結的,感覺具體的實施方案還是得自己實踐,不過個人覺得這個方法有點麻煩。主要流程如下:
(1)在語料庫上,使用word2vec訓練一套詞模型
例如這次組長想搞的事情,其實個人覺得其實是做了重要詞彙標註之後,訓練二分類模型就可以了,因為人在標註的時候,是會進行關鍵資訊的挑選的,如果模型好的話,是會學到這些的,奈何沒有標註資料。其實之前也有看到過有類似的比賽。
監督學習:待更......
NLP 關鍵詞提取演算法
一 提取關鍵字技術簡介 關鍵字提取技術一般也可以分為有監督和無監督 分別是tf idf演算法 textrank演算法和主題模型演算法 包括lsa lsi lda等 tf idf演算法 tf idf term frequency inverse document frequency,詞頻 逆文件頻次演...
NLP 關鍵詞提取之TextRank詳解
pagerank設計之初是用於google的網頁排名的,以該公司創辦人拉里 佩奇 larry page 之姓來命名。google用它來體現網頁的相關性和重要性,在搜尋引擎優化操作中是經常被用來評估網頁優化的成效因素之一。pagerank通過網際網路中的超連結關係來確定乙個網頁的排名,其公式是通過一種...
NLP學習路徑(五) NLP關鍵詞提取演算法
2 tf idf演算法 無監督 tf idf演算法是一種基於統計的計算方法,常用於評估在乙個文件集中乙個詞對某份文件的重要程度。tf演算法是統計乙個詞在一篇文件 現的頻次 idf演算法是統計乙個詞在文件集的多少個文件 現,基本思想是 如果乙個詞在文件 現的次數越少,則其對文件的區分能力也就越強 要對...