語言文字分析(1)

2021-07-11 17:14:15 字數 918 閱讀 7476

r語言在資料探勘中應用廣泛,並有越來越火的趨勢。r語言進行文字挖掘也是相當好使。作為乙個r語言新手,追隨著眾多牛人的腳步,嘗試使用r語言進行文字挖掘分析,過程應是充滿艱辛,道路曲折坎坷之處write down以記錄之。
我從text analysis with r for students of literature (by matthew l. jockers)開始,一步一步走起~

r的安裝與配置教程很多,不提。

簡單的匯入、分割、檢視以及分析嘗試。

setwd("r/tm/1st/")

text <- scan(file = "../data/test.txt", what="character", sep = "\n")

start.metadata<- text[1:start -1]

end.metadata <- text[(end+1):length(text)]

metadata <- c(start.metadata, end.metadata)

novel.lines <- text[start:end]

novel <- paste(novel.lines, collapse = " ")

novel.lower <- tolower(novel)

moby.words.l <- strsplit(novel.lower, "\\w") # split words

moby.words <- unlist(moby.words.l)

not.blanks <- which(moby.words != "")

moby.words <- moby.words[not.blanks]

length(moby.words[which(moby.words=="whale")])

R語言文字分析(5)

採用移除稀疏專案的方法,將稀疏專案移除,得到新的專案文件矩陣,並對裁剪過的專案進行聚類分析。通過剪枝合併的方法可以獲得幾個類團。也可以採用k means進行聚類分析。移除sparse專案 mytdm2 removesparseterms mytdm,sparse 0.95 m2 as.matrix ...

R語言 文字分類 1

因專案需要,結合自身專業知識,故而接觸了r語言及一些常用分類器。記錄下自己這乙個多月的學習歷程。與起源於貝爾實驗室的s語言類似,r也是一種為統計計算和繪圖而生的語言和環境,它是一套開源的資料分析解決方案,由乙個龐大且活躍的全球性研究型社群維護。r是一門指令碼語言,在繪圖方面有著非常強的能力,它可以讓...

python,文字分析

記得將當前目錄設定為檔案目錄 spyder編譯器的右上角,本人用spyder filename input 請輸入你的檔名 file open filename txt try for eachline in file print eachline except print 開啟檔案出錯 final...