中文資料探勘的難點在於如何把文字變成計算機處理的向量,乙個好的詞向量方法可以提公升分類或者其他應用效果。我把自己接觸的詞向量技術總結一下,方便自己複習和其他感興趣的小夥伴交流學習。
使用結巴或者其他中文分詞工具分完詞後就需要生成詞向量了,方便後期的資料探勘工作的展開。
詞向量技術:我接觸的大致可以分成(1)基於統計的方法(2)基於圖的方法(3)基於主題模型的方法(4)基於深度學習的方法
(1)基於統計的方法:
相似度,卡方,互資訊(優點:可以得到對結果影響大的詞;缺點:計算量比較大,需要先驗知識,比如類別)
tf-idf (優點:簡單、效果不錯,可以得到每個詞的權重;缺點:沒考慮詞的順序,需要多篇語料才能得到比較好的詞)
n-gram (優點:2-gram以上考慮了詞順序,提公升了效果;缺點:隨著n的增大,字典迅速擴大,而且訓練用的向量特別稀疏)
bag of words (one hot編碼,優點:簡單;缺點:沒有對詞進行過濾,導致詞比較多,進而影響字典的數量,而且沒有考慮詞頻,以及詞的順序)
(2)基於圖的方法:
textrank(優點:把網頁排名的演算法pagerrank進行變化,得到每個詞的重要性,可以針對一篇文章得到重要的詞語;缺點:計算複雜度比較高)
(3)基於主題模型的方法
lda (使用了共現矩陣;缺點:沒有考慮詞序)
plsa
svd
(4)基於深度學習的方法:
word2vec(優點:考慮了詞的上下文資訊,通過神經網路的投影層得到詞向量,屬於有監督的學習方法,這裡的有監督的意思是把中間詞one-hot的編碼看成已知的向量進行訓練模型,如果考慮是否使用了文章的類別,是無監督的方法;缺點:計算量比較大,訓練時間比較久)
doc2vec()
fasttext(優點:優化了word2vec,使速度大範圍提公升,不用生成詞向量了,直接用於分類等其他任務,屬於有監督的學習方法)
實際應用中,可能是多種方法聯合使用,比如先用tf-idf進行一遍過濾,然後再使用其他方法處理。
先總結這麼多,後面有新的東西再加
文字資料探勘(Text Data Mining)
文字資料探勘 text data mining 是指從文字資料中抽取有價值的資訊和知識的計算機處理技術。文字資料探勘是應用驅動的,在商務智慧型 business intelligence 資訊檢索 information retrieval 生物資訊處理等方面都有應用。按照挖掘物件的不同,可以將td...
文字資料探勘部落格 摘錄
1 中文分詞領域中相較於分詞歧義而言跟讓人頭疼的乙個問題 未登入詞。問題 分詞依賴詞庫,但是一些網路新詞,機構名稱等未登入詞卻不存在於詞庫中,這樣一來,依賴於詞庫分詞得到的結果並不是那麼可靠。一種想法是,通過詞的特徵將詞從語料中提取出來,對比詞庫得到新詞。但是怎樣的文字片段才算乙個詞?答 在考慮了詞...
視覺化文字資料 詞云
在r語言的包裡面,有乙個wordcloud的包,專門用來建立這種型別的圖形,它是由加州大學洛杉磯分校的專業統計學家ian fellows編寫的。下面用幾句簡單的r語言即可繪製出一張詞云 library wordcloud library tm library nlp getwd sms corpus...