抽取出來的標籤看起來還算正常。
我這裡主要是用句法分析+word2vec+dbscan+詞典來實現的這樣乙個功能,具體步驟如下:
1、語料收集
使用上面得到的訓練集,首先使用斯坦福的分詞工具進行分詞處理並去掉停用詞,
3、依存句法分析corenlp+中文model檔案來使用,句法分析得到的結果如下:
4、制定抽取規則
nsubj + advmod
nsubj + advmod + advmod
advmod + advmod
advmod + amod
5、獲得候選標籤
結合抽取規則及情感詞典獲得候選標籤。
6、候選標籤消重
可以利用simhash演算法對候選標籤集合進行消重。
7、候選標籤聚類
利用dbscan+word2vec對候選標籤進行聚類,通過聚類將語義相似的一些標籤聚在一起,實現語義消重的作用。使用dbscan可以很好地將相關標籤聚在一起,而不過多地引入雜質。
8、獲得目標標籤9、總結參考
抽取出來的標籤看起來還算正常。
我這裡主要是用句法分析+word2vec+dbscan+詞典來實現的這樣乙個功能,具體步驟如下:
1、語料收集
使用上面得到的訓練集,首先使用斯坦福的分詞工具進行分詞處理並去掉停用詞,
3、依存句法分析corenlp+中文model檔案來使用,句法分析得到的結果如下:
4、制定抽取規則
nsubj + advmod
nsubj + advmod + advmod
advmod + advmod
advmod + amod
5、獲得候選標籤
結合抽取規則及情感詞典獲得候選標籤。
6、候選標籤消重
可以利用simhash演算法對候選標籤集合進行消重。
7、候選標籤聚類
利用dbscan+word2vec對候選標籤進行聚類,通過聚類將語義相似的一些標籤聚在一起,實現語義消重的作用。使用dbscan可以很好地將相關標籤聚在一起,而不過多地引入雜質。
8、獲得目標標籤9、總結參考
使用者畫像標籤維度 使用者畫像 計算使用者偏好標籤
在 使用者畫像 打使用者行為標籤 中,主要講了如何對使用者的每一次操作行為 業務行為進行記錄打上相應的標籤。在這篇部落格中,主要講如何對這些明細標籤進行計算以及偏好的產品 內容的類目。關於使用者標籤權重的計算,在這篇部落格裡面講過了 超人 使用者畫像之標籤權重演算法 zhuanlan.zhihu.c...
使用者評論,關鍵詞遮蔽
badword array 小黃 小白 小藍 array fill index,number,value 函式用給定的鍵值填充陣列。array fill 0,count badword 結果 array 0 1 2 array combine 函式通過合併兩個陣列來建立乙個新陣列,其中的乙個陣列元素...
使用者標籤 vs 使用者畫像
現在很多人把使用者標籤和使用者畫像混為一談。雖然標籤和畫像的資料基礎是同一套,但適用場景完全不同,乙個是巨集觀角度,乙個是微觀角度,需要在使用時進行區別。使用者標籤,是通過人工或智慧型的方式,對使用者群的某些共同特徵進行提煉的結果。使用者標籤是用來給使用者分群的,是面向市場營銷人員的。使用者畫像,是...