中文與英文做文字分析很多時候會多乙個分詞步驟,因為預設情況下,文字分析軟體會預設用空格作為分隔符處理文字,所以很多軟體需要先將中文文字分詞,整理成像英文那樣用空格間隔單詞的資料形式。
在r中有乙個jiebar中文分詞包,可以幫我們做分詞操作~
install.packages("jiebar")
jiebar::segment(code, jiebar)
對字串分詞
library(jiebar)
## loading required package: jiebard
#初始化jiebar中的worker,將這個工人命名為tokenizer
tokenizer <- worker()
#segment函式僱傭tokenizer幹分詞的活
words <- segment("市長江大橋視察長江大橋", tokenizer)
words
## [1] "市長" "江大橋" "視察" "長江大橋"
剛剛給segment僱傭的worker時沒有設定工作要求,所以幹的活比較粗糙。現在我們把分詞這個工作細緻化。
worker(
type = "mix",
user = userpath,
stop_word =
stoppath,
topn = 5,
symbol = f)
預設type="mix"
分詞結果帶著詞性
tokenizer <- worker(type='tag')
words <- segment("市長江大橋視察長江大橋", tokenizer)
words
## n x v ns
## "市長" "江大橋" "視察" "長江大橋"
有時候jiebar分詞容易把感興趣的詞分成更細粒度的詞,中國大媽這個詞,預設是會被分為中國和大媽兩個詞。例如
tokenizer <- worker()
text <- "在**市場上,中國大媽戰勝華爾街金融大鱷"
segment(text, tokenizer)
## [1] "在" "**市場" "上" "中國" "大媽" "戰勝"
## [7] "華爾街" "金融" "大" "鱷"
這時候我們需要把中國大媽加到使用者自定義詞典中,通過詞典告訴worker,凡是遇到中國大媽,一律不許亂分,保持詞語其完整性。
diydict.txt我放到了data資料夾內,每行存放乙個詞語。
library(jiebar)
tokenizer <- worker(user="data/diydict.txt")
text <- "在**市場上,中國大媽戰勝華爾街金融大鱷"
segment(text, tokenizer)
## [1] "在" "**市場" "上" "中國大媽" "戰勝" "華爾街" "金融"
## [8] "大" "鱷"
是否保留符號,預設不保留
tokenizer <- worker()
text <- "在**市場上,大媽戰勝華爾街金融大鱷!!!"
segment(text, tokenizer)
## [1] "在" "**市場" "上" "大媽" "戰勝" "華爾街" "金融"
## [8] "大" "鱷"
保留符號
tokenizer <- worker(symbol = true)
text <- "在**市場上,大媽戰勝華爾街金融大鱷!!!"
segment(text, tokenizer)
## [1] "在" "**市場" "上" "," "大媽" "戰勝"
## [7] "華爾街" "金融" "大" "鱷" "!" "!"
## [13] "!"
r語言 | 讀寫txt、csv、excel檔案
r語言 | 資料操作dplyr包
python相關[更新] python網路爬蟲與文字資料分析
讀完本文你就了解什麼是文字分析
文字分析在經管領域中的應用概述
綜述:文字分析在市場營銷研究中的應用
plotnine: python版的ggplot2作相簿
stylecloud:簡潔易用的詞云庫
wow~70g上市公司定期報告資料集
漂亮~pandas可以無縫銜接bokeh
yelpdaset: 酒店管理類資料集10+g
R語言jiebaR包的分詞學習
實訓中的自然語言處理部分,首先就是要分詞了,學習一下!使用jiebar的第一步當然是安裝jiabar包並載入咯 安裝 install.packages jiebar 載入 library jiebar 三種分詞語句的寫法 wk worker 方法1 wk 我希望未來會很好 方法2 wk 我希望未來會...
r語言安裝r包
cran,bioconductor還有github。bioconductor一般都是生物資訊方面的r包。github是 的託管平台,很多軟體,多種語言的程式包也都在這裡發布。install.packages dyplr 注意 更改映象 options repos c cran options bio...
包r語言 R語言入門之R包的安裝
install.packages metafor 即可順利安裝該r包。install.packages biocmanager library biocmanager install edger 3 接下來便是安裝源自github 的r包了,它的步驟和安裝源自bioconductor的r包類似,需要...