維基百科中文資料
2.使用
wikipedia extractor抽取文字(半小時內完成)
命令:python wikiextractor.py -b 2000m -o zhwiki zhwiki-latest-pages-articles.xml
3.使用opencc轉換成簡體
命令:opencc -i wiki_00 -o zhwiki_chs -c zht2zhs.ini
4.分詞
進一步工作:
對資料集進行進一步優化:
1.清除文字的符號、虛詞形容詞副詞等。
chinese資料再分詞
2.尋找中文,英文詞向量評價指標。
3.多個txt檔案合成乙個,可以使用批處理。
搜狗實驗室資料
2.解壓資料報tar -xvf sougouca.tar
3.將解壓之後的txt歸併到乙個檔案中sogouca.txt
cat *.txt > sogouca.txt
4.取出其中包含content的行並轉碼,得到語料sougouca_chun
cat sougouca.txt | iconv -f gbk -t utf-8 -c | grep "" > sougouca_chun
5.使用w10上的**word_qufuhao將sougouca_chun的英文以及符號去掉得到sougouca_qufuhao(但是裡面的英文和數字沒有消除,可能是編碼問題)
6.對資料進行分詞jieba得到sougou_jieba
7.用word2vec進行詞向量訓練
2.使用enwiki_xml2text.py或者
wikipedia extractor
對資料進行抽取成文字檔案,大概花了
3.直接進行訓練
4.全部轉化為小寫
2月20號維基百科英文詞庫包含:
vocab size: 2029069
words in train file: 2071889941
維基百科映象處理
zhwiki latest pages articles.xml.bz2 詞條正文 zhwiki latest redirect.sql 詞條重定向 同義詞 zhwiki latest pagelinks.sql 詞條頁面內容外鏈 zhwiki latest page.sql 詞條標題及摘要 zhw...
中文維基百科資料處理
3 opencc第三方庫,是中文字元轉換,包括中文簡體繁體相互轉換等。中文維基百科資料一般包含如下幾個部分 訓練詞向量採用的資料是正文資料,下面我們將對正文資料進行處理。使用 python wiki process.py zhwiki latest pages articles.xml.bz2 zh...
資料庫測試 百科
資料庫測試是依據資料庫 設計規範對軟體系統的資料庫結構 資料表及其之間的資料呼叫關係進行的測試。整合測試是主要針對介面進行的測試工作,從資料庫的角度來說和普通測試稍微有些區別對於資料庫測試來說,需要考慮的是 資料項的修改操作 資料項的增加操作 資料項的刪除操作 資料表增加滿 資料表刪除空 刪除空表中...