jieba pyhanlp分詞簡單操作

2021-08-29 05:40:34 字數 1322 閱讀 5310

content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。"

content = jieba.cut(content, cut_all=false)

print('/'.join(content))

content2 = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。"

content2 = jieba.cut(content2, cut_all=true)

print('/'.join(content2))

content3 = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。"

content3 = jieba.cut_for_search(content3)

print('/'.join(content3))

content4 = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。"

content4 = jieba.lcut(content4, cut_all=false)

print(content4)

import jieba.posseg as psg

content5 = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。"

content5 = psg.lcut(content5)

print([(x.word,x.flag) for x in content5])

from collections import counter

top5 = counter(content5).most_common(4)

print(top5)

txt = "鐵甲網是中國最大的工程機械交易平台。"

jieba.add_word('鐵甲網')

print(jieba.lcut(txt))

from pyhanlp import *

content6 = '現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。'

print(hanlp.segment(content6))

txt = "鐵甲網是中國最大的工程機械交易平台。"

customdictionary.add('鐵甲網')

customdictionary.insert('機械工程', 'nz 1024')

customdictionary.add('交易平台', 'nz 1024 n 1')

print(hanlp.segment(txt))

英文分詞和中文分詞

由於英語的基本組成單位就是詞,所以相對來說簡單很多。大致分為三步 3s 根據空格拆分單詞 split 排除停止詞 stop word 提取詞幹 stemming 1 根據空格拆分單詞 這一步是是最簡單的一步,英語的句子基本上就是由標點符號 空格和詞構成,那麼只要根據空格和標點符號將詞語分割成陣列即可...

最小分詞(中文分詞)

中文分詞一般有下面幾種方法 1 基於字串匹配的分詞方法 1 正向最大匹配法 由左到右的方向 2 逆向最大匹配法 由右到左的方向 3 最少切分 使每一句中切出的詞數最小 這幾種方法一般都是通過 字典 來實現的,比如 中國航天 應邀到美國與太空總署 開會 其中字典如下 中國航天 這樣子 流掃瞄 中,第乙...

python中文分詞 結巴分詞

中文分詞是中文文字處理的乙個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點 基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖 dag 採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合 對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了...