一、基本工具集
1.分詞工具
a.jieba
結巴中文分詞
b.hanlp
c.盤古分詞-開源中文分詞元件
盤古分詞是乙個中英文分詞元件。作者eaglet 曾經開發過ktdictseg 中文分詞元件,擁有大量使用者。 作者基於之前分詞元件的開發經驗,結合最新的開發技術重新編寫了盤古分詞元件。
d.pullword
e.bosonnlp
玻森中文語義開放平台提供使用簡單、功能強大、效能可靠的中文自然語言分析雲服務。
f.hit-scir/ltp
language technology platform
tf-idf
gensim
textrank
3.詞向量
word2vec-gensim
topic modelling for humans - radim řehůřek
glove
global vectors for word representation
4.距離計算
word2vec-gensim
topic modelling for humans - radim řehůřek
二、常用演算法
1.中文分詞+tf-idf+word2vec+cosine 距離計算
2.doc2vec
3.simhash
三、文字相似度計算綜述
《中文資訊處理發展報告(2016)》
NLP 中文文字相似度實戰
原文 1 基於詞向量 余弦相似度,曼哈頓距離,歐幾里得距離,明式距離 是前兩種距離測度的推廣 2 基於字元 編輯距離,simhash 適用於海量資料 共有字元數 有點類似 onehot 編碼,直接統計兩個文字的共有字元數,最 3 基於概率統計 傑卡德相似係數 4 基於詞嵌入模型 word2vec d...
計算文字相似度 最準的中文文字相似度計算工具
向ai轉型的程式設計師都關注了這個號?text2vec,chinese text to vetor.文字向量化表示工具,包括詞向量化 句子向量化 本文相關 獲取 ai專案體驗位址 文字相似度計算 query和docs的相似度比較 result 文字相似度計算 儘管文字相似度計算的基準方法很簡潔,但用...
自然語言處理的中文文字相似度
前言 人與計算機的互動過程中,如果能提供人類的自然語言形式來進行交流,那麼人與計算機就能更加親密友好。而要實現這一機制就需要自然語言處理來處理,一般來說自然語言處理會涉及幾個學科 電腦科學 語言學 統計學和數學等。不同語言的自然語言處理也存在差別,對於中文來說,很多時候都無法直接套用英語自然語言處理...