bzcat zhwiki-latest-pages-articles.xml.bz2 | python wikiextractor.py -b 1000m -o extracted >output.txt
其中-b 1000m是將文字以1000m大小為單位進行分割;output.txt儲存的是輸出過程中日誌資訊而非所抽取的正文文字。
上圖是抽取出的語料庫,我們發現是正體中文庫。
我們這裡使用opencc對語料庫進行簡化。同樣,在macos終端輸入以下命令列:
opencc -i wiki_00 -o zh_wiki_00 -c zht2zhs.ini
opencc -i wiki_01 -o zh_wiki_01 -c zht2zhs.ini
得到簡體中文的語料包zh_wiki_00和zh_wiki_01。簡化後如下:
jieba分詞是支援python語言的中文分詞元件。jieba分詞在深度學習,自然語言處理中有著廣泛使用,用法簡單。
# encoding=utf-8
import jieba
import jieba.posseg as pseg
seg_list = jieba.cut("我來到南京郵電大學", cut_all=true)
print("full mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我來到南京郵電大學", cut_all=false)
print("default mode: " + "/ ".join(seg_list)) # 精確模式
seg_list = jieba.cut("他就職於華為南京研究所") # 預設是精確模式
print("/".join(seg_list))
seg_list = jieba.cut("小明本科畢業於南京郵電大學,後在北京郵電大學深造")
print("/".join(seg_list))
seg_list = jieba.cut_for_search("小明本科畢業於南京郵電大學,後在北京郵電大學深造") # 搜尋引擎模式
print("/".join(seg_list))
words = pseg.cut("我愛南京的新街口")#檢視詞性
for word, flag in words:
print('%s %s' %(word, flag))
輸出結果如下:
執行以下**,完成語料庫的分詞:
# encoding = utf-8
import jieba
import codecs
import re
f = codecs.open('cut_zh_wiki_00.txt', "a+", 'utf-8')
for line in open("zh_wiki_00"):
for i in re.sub('[a-za-z0-9]', '', line).split(' '):
if i != '':
data = list(jieba.cut(i, cut_all = false))
readline = ' '.join(data) + '\n'
f.write(readline)
f.close()
分詞結果如下:
SolrCloud學習(二)中文分詞
中文分詞 solrcloud自身也支援中文分詞,根據系統需求,我這裡使用了ikanalyzer分詞器。支援solr的ikanalyzer版本是ikanalyzer2012ff u1。第一步 新增ikanalyzer的jar包至lib環境,操作如下 cp ikanalyzer2012ff u1.jar...
NLP 二 中文處理jieba模組
jieba模組 中文沒有空格 jieba.cut方法接受三個引數的 需要分詞的字串 cut all引數用來控制是否採用全模式 hmm引數用來控制是否使用hmm模型 jieba.cut for search方法接受兩個引數 需要分詞的字串 是否使用hmm模型 import jieba text 我來到...
centos 5 3中文系統亂碼問題
緣由 本人在虛擬機器中安裝centos 5.3,起初安裝時選擇了english,後來使用的過程中發現開啟網頁,會出現中文亂碼,無法正常顯示。當然,本地檔案中的中文更是無法顯示。若是將系統語言language設定成中文,則整個系統全部亂碼。綜上 解決系統中文亂碼的步驟為 1.在光碟中 找到這兩個包,安...