維基百科資料庫處理,用於訓練word2vec

2021-08-01 10:51:48 字數 1062 閱讀 4093

維基百科中文資料

2.使用

wikipedia extractor抽取文字(半小時內完成)

命令:python wikiextractor.py -b 2000m -o zhwiki zhwiki-latest-pages-articles.xml

3.使用opencc轉換成簡體

命令:opencc -i wiki_00 -o zhwiki_chs -c zht2zhs.ini

4.分詞

進一步工作:

對資料集進行進一步優化:

1.清除文字的符號、虛詞形容詞副詞等。

chinese資料再分詞

2.尋找中文,英文詞向量評價指標。

3.多個txt檔案合成乙個,可以使用批處理。

搜狗實驗室資料

2.解壓資料報tar -xvf sougouca.tar

3.將解壓之後的txt歸併到乙個檔案中sogouca.txt

cat *.txt > sogouca.txt

4.取出其中包含content的行並轉碼,得到語料sougouca_chun

cat sougouca.txt | iconv -f gbk -t utf-8 -c | grep "" > sougouca_chun

5.使用w10上的**word_qufuhao將sougouca_chun的英文以及符號去掉得到sougouca_qufuhao(但是裡面的英文和數字沒有消除,可能是編碼問題)

6.對資料進行分詞jieba得到sougou_jieba

7.用word2vec進行詞向量訓練

2.使用enwiki_xml2text.py或者

wikipedia extractor

對資料進行抽取成文字檔案,大概花了

3.直接進行訓練

4.全部轉化為小寫

2月20號維基百科英文詞庫包含:

vocab size: 2029069

words in train file: 2071889941

維基百科映象處理

zhwiki latest pages articles.xml.bz2 詞條正文 zhwiki latest redirect.sql 詞條重定向 同義詞 zhwiki latest pagelinks.sql 詞條頁面內容外鏈 zhwiki latest page.sql 詞條標題及摘要 zhw...

中文維基百科資料處理

3 opencc第三方庫,是中文字元轉換,包括中文簡體繁體相互轉換等。中文維基百科資料一般包含如下幾個部分 訓練詞向量採用的資料是正文資料,下面我們將對正文資料進行處理。使用 python wiki process.py zhwiki latest pages articles.xml.bz2 zh...

資料庫測試 百科

資料庫測試是依據資料庫 設計規範對軟體系統的資料庫結構 資料表及其之間的資料呼叫關係進行的測試。整合測試是主要針對介面進行的測試工作,從資料庫的角度來說和普通測試稍微有些區別對於資料庫測試來說,需要考慮的是 資料項的修改操作 資料項的增加操作 資料項的刪除操作 資料表增加滿 資料表刪除空 刪除空表中...