簡易中文自動文摘系統（二）中文語料庫的準備

bzcat zhwiki-latest-pages-articles.xml.bz2 | python wikiextractor.py -b 1000m -o extracted >output.txt

其中-b 1000m是將文字以1000m大小為單位進行分割；output.txt儲存的是輸出過程中日誌資訊而非所抽取的正文文字。

上圖是抽取出的語料庫，我們發現是正體中文庫。

我們這裡使用opencc對語料庫進行簡化。同樣，在macos終端輸入以下命令列：

opencc -i wiki_00 -o zh_wiki_00 -c zht2zhs.ini opencc -i wiki_01 -o zh_wiki_01 -c zht2zhs.ini

得到簡體中文的語料包zh_wiki_00和zh_wiki_01。簡化後如下：

jieba分詞是支援python語言的中文分詞元件。jieba分詞在深度學習，自然語言處理中有著廣泛使用，用法簡單。

# encoding=utf-8
import jieba
import jieba.posseg as pseg
seg_list = jieba.cut("我來到南京郵電大學", cut_all=true)
print("full mode: " + "/ ".join(seg_list))  # 全模式
seg_list = jieba.cut("我來到南京郵電大學", cut_all=false)
print("default mode: " + "/ ".join(seg_list))  # 精確模式
seg_list = jieba.cut("他就職於華為南京研究所")  # 預設是精確模式
print("/".join(seg_list))
seg_list = jieba.cut("小明本科畢業於南京郵電大學，後在北京郵電大學深造")
print("/".join(seg_list))
seg_list = jieba.cut_for_search("小明本科畢業於南京郵電大學，後在北京郵電大學深造")  # 搜尋引擎模式
print("/".join(seg_list))
words = pseg.cut("我愛南京的新街口")#檢視詞性
for word, flag in words:
print('%s %s' %(word, flag))

輸出結果如下：

執行以下**，完成語料庫的分詞：

# encoding = utf-8
import jieba
import codecs
import re
f = codecs.open('cut_zh_wiki_00.txt', "a+", 'utf-8')
for line in open("zh_wiki_00"):
for i in re.sub('[a-za-z0-9]', '', line).split(' '):
if i != '':
data = list(jieba.cut(i, cut_all = false))
readline = ' '.join(data) + '\n'
f.write(readline)
f.close()

分詞結果如下：

SolrCloud學習（二）中文分詞

中文分詞 solrcloud自身也支援中文分詞，根據系統需求，我這裡使用了ikanalyzer分詞器。支援solr的ikanalyzer版本是ikanalyzer2012ff u1。第一步新增ikanalyzer的jar包至lib環境，操作如下 cp ikanalyzer2012ff u1.jar...

NLP 二中文處理jieba模組

jieba模組中文沒有空格 jieba.cut方法接受三個引數的需要分詞的字串 cut all引數用來控制是否採用全模式 hmm引數用來控制是否使用hmm模型 jieba.cut for search方法接受兩個引數需要分詞的字串是否使用hmm模型 import jieba text 我來到...

centos 5 3中文系統亂碼問題

緣由本人在虛擬機器中安裝centos 5.3，起初安裝時選擇了english，後來使用的過程中發現開啟網頁，會出現中文亂碼，無法正常顯示。當然，本地檔案中的中文更是無法顯示。若是將系統語言language設定成中文，則整個系統全部亂碼。綜上解決系統中文亂碼的步驟為 1.在光碟中找到這兩個包，安...

簡易中文自動文摘系統（二） 中文語料庫的準備

SolrCloud學習（二）中文分詞

NLP 二 中文處理jieba模組

centos 5 3中文系統亂碼問題

相關推薦

簡易中文自動文摘系統（二）中文語料庫的準備

NLP 二中文處理jieba模組