1.安裝及入門介紹推薦
pip install jieba
結巴中文分詞涉及到的演算法包括:
(1) 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖(dag);
(2) 採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合;
(3) 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了viterbi演算法。
結巴中文分詞支援的三種分詞模式包括:
(1) 精確模式:試圖將句子最精確地切開,適合文字分析;
(2) 全模式:把句子中所有的可以成詞的詞語都掃瞄出來, 速度非常快,但是不能解決歧義問題;
(3) 搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
同時結巴分詞支援繁體分詞和自定義字典方法。
#encoding=utf-8
import jieba
#全模式
text ="我來到北京清華大學"
seg_list = jieba.cut(text, cut_all=true)
printu"[全模式]: ","/ ".join(seg_list)
#精確模式
seg_list = jieba.cut(text, cut_all=false)
printu"[精確模式]: ","/ ".join(seg_list)
#預設是精確模式
seg_list = jieba.cut(text)
printu"[預設模式]: ","/ ".join
Python中的模組與包
在import模組的時候,python是通過系統路徑找到這些模組的,我們可以將這些路徑列印出來 pprint.pprint sys.path library python 2.7 site packages pip 1.4.1 py2.7.egg library python 2.7 site pa...
python中的模組和包
乙個模組就是乙個包含python 的檔案。乙個檔案就是乙個模組 1.現在程式開發檔案比較大,都放在乙個檔案中維護不方便,拆分成多個檔案方便維護與管理 2.模組可以增加 的重用率 3.模組可以當作命名空間模組本身就是乙個檔案,所有py 都可以在檔案中直接書寫。不過我們開發共用模組時,最好在模組中書寫以...
python中的包與模組
模組 為了使 更容易維護,提高 重用價值 可以將一組相關功能的 寫入乙個單獨的.py檔案中。供別人匯入使用。這個.py檔案就被稱作是乙個模組。模組的匯入 import module1,module2 或import module1 import module2 匯入模組後,模組中的方法或者類可以通過...