使用者評論標籤的抽取

2021-10-16 12:19:17 字數 1947 閱讀 1002

抽取出來的標籤看起來還算正常。

我這裡主要是用句法分析+word2vec+dbscan+詞典來實現的這樣乙個功能,具體步驟如下:

1、語料收集

使用上面得到的訓練集,首先使用斯坦福的分詞工具進行分詞處理並去掉停用詞,

3、依存句法分析corenlp+中文model檔案來使用,句法分析得到的結果如下:

4、制定抽取規則

nsubj + advmod

nsubj + advmod + advmod

advmod + advmod

advmod + amod

5、獲得候選標籤

結合抽取規則及情感詞典獲得候選標籤。

6、候選標籤消重

可以利用simhash演算法對候選標籤集合進行消重。

7、候選標籤聚類

利用dbscan+word2vec對候選標籤進行聚類,通過聚類將語義相似的一些標籤聚在一起,實現語義消重的作用。使用dbscan可以很好地將相關標籤聚在一起,而不過多地引入雜質。

8、獲得目標標籤9、總結參考

抽取出來的標籤看起來還算正常。

我這裡主要是用句法分析+word2vec+dbscan+詞典來實現的這樣乙個功能,具體步驟如下:

1、語料收集

使用上面得到的訓練集,首先使用斯坦福的分詞工具進行分詞處理並去掉停用詞,

3、依存句法分析corenlp+中文model檔案來使用,句法分析得到的結果如下:

4、制定抽取規則

nsubj + advmod

nsubj + advmod + advmod

advmod + advmod

advmod + amod

5、獲得候選標籤

結合抽取規則及情感詞典獲得候選標籤。

6、候選標籤消重

可以利用simhash演算法對候選標籤集合進行消重。

7、候選標籤聚類

利用dbscan+word2vec對候選標籤進行聚類,通過聚類將語義相似的一些標籤聚在一起,實現語義消重的作用。使用dbscan可以很好地將相關標籤聚在一起,而不過多地引入雜質。

8、獲得目標標籤9、總結參考

使用者畫像標籤維度 使用者畫像 計算使用者偏好標籤

在 使用者畫像 打使用者行為標籤 中,主要講了如何對使用者的每一次操作行為 業務行為進行記錄打上相應的標籤。在這篇部落格中,主要講如何對這些明細標籤進行計算以及偏好的產品 內容的類目。關於使用者標籤權重的計算,在這篇部落格裡面講過了 超人 使用者畫像之標籤權重演算法 zhuanlan.zhihu.c...

使用者評論,關鍵詞遮蔽

badword array 小黃 小白 小藍 array fill index,number,value 函式用給定的鍵值填充陣列。array fill 0,count badword 結果 array 0 1 2 array combine 函式通過合併兩個陣列來建立乙個新陣列,其中的乙個陣列元素...

使用者標籤 vs 使用者畫像

現在很多人把使用者標籤和使用者畫像混為一談。雖然標籤和畫像的資料基礎是同一套,但適用場景完全不同,乙個是巨集觀角度,乙個是微觀角度,需要在使用時進行區別。使用者標籤,是通過人工或智慧型的方式,對使用者群的某些共同特徵進行提煉的結果。使用者標籤是用來給使用者分群的,是面向市場營銷人員的。使用者畫像,是...