jieba匯入自定義文件時報錯

2021-10-05 21:30:36 字數 1298 閱讀 2433

使用jieba中文拆字庫時,可以通過三種拆字模式,分別是:精準模式分詞,全模式分詞,搜尋引擎分詞;

具體的**可以參考

str_text=open('/users/zhangge/desktop/新建文字文件.txt',encoding='utf-8',errors='ignore').read()

str_jing1=jieba.cut(str_text,cut_all=false)

#print('精準模式分詞:' % len(list(str_jing1)))

#str_jing2=jieba.cut(filepath,cut_all=false)

#print("$".join(str_jing2))

str_quan1=jieba.cut(str_text,cut_all=true)

print('全模式分詞:' % len(list(str_quan1)))

str_quan2=jieba.cut(str_text,cut_all=true)

print("$".join(str_quan2))

str_soso1=jieba.cut_for_search(str_text)

print('搜尋引擎分詞:' % len(list(str_soso1)))

str_soso2=jieba.cut_for_search(str_text)

print("$".join(str_soso2))

在mac系統下可以獲取到具體的資料,並且在run裡面顯示具體的拆分的文字

在匯入自定義詞庫時發現乙個問題,就是無論如何都會出現找不到路徑,百思不得其解啊!

之後想辦法使用另外一種方式進行載入自定義詞庫

使用系統自帶的os庫裡面的方式

filepath= open(os.path.join('data','電子病例模板.txt'),'r',encoding='utf-8',errors='ignor').read()

userdict = os.path.join("data", "user.txt")

jieba.load_userdict(userdict)

str_load=jieba.cut(filepath,cut_all=false)

print('load_userdict後:'+"/".join(str_load))

這裡面的data是我們專案的根目錄

以上是在學習python過程中解決的匯入自定義詞庫的問題記錄,方便以後自己查閱

jieba分詞自定義dict字典

下面是沒有加入字典之前 import jieba text 我想知道區塊鏈有什麼用 a jieba.cut text print join a 我 想 知道 區塊 鏈有 什麼 用下面是加入字典之後 首先要在同乙個包下面建立乙個tet檔案,然後裡面寫上你要不分開的詞,詞頻,詞性 可省略 如 塊鏈 3 ...

自定義文件庫之 自定義文件庫右鍵選單

sps文件庫的右鍵選單通過program files mon file icrosoft sharedweb server extensions0templatelayouts?2目錄下的ows.js中的adddoclibmenuitems函式生成,該函式提供乙個hook可以使用,如下 functi...

jieba 分詞自定義詞典問題

只對長詞起作用 對如果定義的詞比jieba自己分的短,則沒有用 下面是三種分詞方式的影響 python view plain copy encoding utf 8 import jieba import os import sys test text 號碼查詢 精確模式 seg list jieb...