詞語相似度處理過程(2)

2021-08-19 11:16:30 字數 876 閱讀 4111

整個處理過程遵照:

教程的方式,中間穿插著使用了其他的方法,下面開始乙個個講解一下具體做實驗的過程:

zhwiki-latest-pages-articles.xml.bz2

2.對壓縮檔案的處理,根據帖子中的命令列,直接在同一級目錄下執行process_wiki.py即可。

輸入:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

這個過程耗費時間比較久,大概需要3個半小時左右。

生成了wiki.zh.text

3.生成的文字當中存在繁體字,所以我們考慮使用簡繁體轉換的方式,將繁體字轉換為簡體字,這裡就用到了新的轉換工具,opencc的包。具體的使用方式及中間的波折寫在opencc的安裝筆記當中。生成轉換之後的文字:wiki.zh.jian.text

4.對英文做處理,在網上找到了乙個合適的方法,特別方便,直接執行(5分鐘)

remove_words.py生成了wiki_cn_jian_remomved.txt

5.對詞語進行切割,使用jieba分詞包(半個小時)

執行 separate_words.py得到檔案wiki_cn_jian_removed_seg.txt檔案

6.訓練word2vec模型,執行train_word2vec_model.py檔案(25分鐘)

具體命令列:

python train_word2vec_model.py wiki_cn_jian_removed_seg.txt wiki.zh.text.model wiki.zh.text.vector

訓練結束,開始測試:

至此word2vec的實驗全部完成,這裡的word2vec裡面具體用到的是skip-gram模型。

詞語相似度計算

詞語相似度計算 當事物可以計算的時候就產生了智慧型 alert 一 詞語相似度 詞義相似度計算在很多領域中都有廣泛的應用,例如資訊檢索 資訊抽取 文字分類 詞義排歧 基於例項的機器翻譯等等。國內很多 主要是基於同義詞林和知網來計算的。本文的詞語相似度計算是基於 同義詞詞林 的。二 同義詞林介紹 同義...

Word2Vec提取關鍵詞,詞語相似度

import sys try reload sys sys.setdefaultencoding utf 8 except pass import codecs from textrank4zh import textrank4keyword,textrank4sentence from gensi...

USB host處理過程

在usbh core.c中有乙個函式usbh process 這個函式很重要,main 函式每迴圈一次,它就執行一次,它處理所有usb核心狀態的變化,typedef enum host state 根據這個當前狀態 phost gstate 處於以上哪個狀態的不同,做出不同的處理過程。其中最重要的要...