import jieba
content =
'公信**幹事每月經過下屬科室都要親**代24**換機等技術性器件的安裝工作'
# cut_all = true表示精確匹配,即返回最正確的分詞情況
print
(jieba.cut(content, cut_all=
true))
print
(jieba.lcut(content, cut_all=
true))
----
----
----
----
----
----
----
----
----
----
----
>
['公信'
,'**'
,'女幹事'
,'幹事'
,'每月'
,'月經'
,'經過'
,'下屬'
,'科室'
,'都'
,'要'
,'親口'
,'**'
,'交代'
,'24'
,'**'
,'交換'
,'交換機'
,'換機'
,'等'
,'技術'
,'技術性'
,'性器'
,'器件'
,'的'
,'安裝'
,'安裝工'
,'裝工'
,'工作'
]
import jieba
content =
'公信**幹事每月經過下屬科室都要親**代24**換機等技術性器件的安裝工作'
# cut_all = true表示精確匹配,即返回最正確的分詞情況
print
(jieba.cut(content, cut_all=
false))
print
(jieba.lcut(content, cut_all=
false))
----
----
----
----
----
----
----
----
----
----
--->
['公信'
,'處'
,'女幹事'
,'每月'
,'經過'
,'下屬'
,'科室'
,'都'
,'要'
,'親口'
,'交代'
,'24'
,'口'
,'交換機'
,'等'
,'技術性'
,'器件'
,'的'
,'安裝'
,'工作'
]
在精確分詞的基礎上,對長詞進行切割,提高召回率,適用於搜尋引擎分詞
import jieba
content =
'公信**幹事每月經過下屬科室都要親**代24**換機等技術性器件的安裝工作'
# cut_all = true表示精確匹配,即返回最正確的分詞情況
print
(jieba.cut_for_search(content)
)print
(jieba.lcut_for_search(content))-
----
----
----
----
----
----
----
----
----
----
--->
['公信'
,'處'
,'幹事'
,'女幹事'
,'每月'
,'經過'
,'下屬'
,'科室'
,'都'
,'要'
,'親口'
,'交代'
,'24'
,'口'
,'交換'
,'換機'
,'交換機'
,'等'
,'技術'
,'技術性'
,'器件'
,'的'
,'安裝'
,'工作'
]
jieben內部自定義了自己的詞庫,如果要往裡面新增屬於自己的詞庫,請參照這個鏈結的做法 shell文字處理
最於檔案的操作以前都是用高階程式語言來操作的。今天恰好需要將乙個目錄中的檔案資訊儲存到sqlite3資料庫中 我用linux中的工具和shell來作為自己畢業設計做原型開發 下面記錄一下這裡用到的部分知識,以作備忘。用ls命令來說明 1.關於shell中的管道和重定向問題。這個知識基礎,這裡不再說了...
WML 文字處理
wml使用xml文件字符集,目前支援unicode 2.0,和hdml不同,wml的所有標籤,屬性和規定的可接收值必須小寫,card的名字和變數也是區分大小寫的。和hdml一樣,對於連續的空字元,只顯示乙個空格。標籤內屬性的值必須用 或者 括起來,屬性名,和值之間不能有空格。對於不成對出現的標籤,必...
shell 文字處理
最近優化指令碼,將幾套指令碼合併,比如,處理nand手機的指令碼和處理emmc手機的指令碼是不一樣的,這導致我們的指令碼有很多個版本。手機側只有busybox,所以不能使用功能強大的python來處理文字。花了半天時間,發現雖然語法比較怪異,但也能簡潔的完成任務。if e proc emmc the...