北京大學開源分詞器pkuseg

2021-09-29 12:54:59 字數 746 閱讀 1251

import pkuseg

seg = pkuseg.pkuseg() #以預設配置載入模型

text = seg.cut('南京市長江大橋,敘利亞東古塔地區,俄***') #進行分詞

print(text)

['南京市', '長江', '大橋', ',', '敘利亞', '東古塔', '地區', ',', '俄', '***']

import pkuseg

lexicon = ['東古塔', '襲擊事件'] #希望分詞時使用者詞典中的詞固定不分開

seg = pkuseg.pkuseg(user_dict=lexicon) #載入模型,給定使用者詞典

text = seg.cut('敘利亞東古塔地區7日發生疑似化學**襲擊事件,導致70餘人喪生。俄***則認為,該謠言旨在袒護****,並為外部勢力發動打擊尋找藉口。') #進行分詞

print(text)

['敘利亞', '東古塔', '地區', '7日', '發生', '疑似', '化學', '**', '襲擊事件', ',', '導致', '70餘', '人', '喪生', '。', '俄', '***', '則', '認為', ',', '該', '謠言', '旨在', '袒護', '恐怖', '分子', ',', '並', '為', '外部', '勢力', '發動', '打擊', '尋找', '藉口', '。']

其它模型及例項,見鏈結。

提取碼:zt09 

蓋茨北京大學演講

大家早上好!微軟認為計算將是個人的,所有的人們創造出來工具,在所有的工具中個人電腦將是重要的一點,它能夠為人們提供溝通以及製造,做生意的全新的方式,這些充滿了好奇心的學生,更好地獲取各種各樣的資訊,讓他們找到自己問題的答案。在過去的30年中,確實是令人難以置信的。我們看到計算以後的方式發展,在30多...

參加「北京大學CIO論壇」

今天上午9 00左右,忽然想起來曾經接到過乙份通知 北京大學cio論壇。或者中國資訊化高峰論壇暨首屆北大cio班結業典禮。內心裡不是很喜歡湊這種熱鬧,畢竟我已經看過 經歷過太多這樣的東西,印象中覺得就不是太好。但是,看到這是中國的最高學府首次舉辦類似的活動,心裡覺得還是有必要去看看的。正想著,身子還...

子串計算 北京大學

牛客網題目鏈結 直接暴力,用map函式存每個子串出現的次數,子串的型別使用兩層迴圈遍歷。注意字串的邊界問題,這裡需要排序所以直接用map include include include include include include include include include include u...