因專案需要,結合自身專業知識,故而接觸了r語言及一些常用分類器。記錄下自己這乙個多月的學習歷程。
與起源於貝爾實驗室的s語言類似,r也是一種為統計計算和繪圖而生的語言和環境,它是一套開源的資料分析解決方案,由乙個龐大且活躍的全球性研究型社群維護。
r是一門指令碼語言,在繪圖方面有著非常強的能力,它可以讓你集中到你要設計的邏輯上來,而不必太過糾結於**的實現。它的包實在太豐富,幾乎能滿足你全部的需要。我使用的ide是rstudio。然後介紹幾個我在文字分類裡用到的包:
為了激發興趣,學習了其中乙個很有意思的包:詞云包——wordcloud
**如下:
library(wordcloud) #載入wordcloud包
library(rcolorbrewer) #載入顏色包
png(file="wordcloud.png", bg="white",width = 600, height = 780) #新建乙個png的檔案作為詞云檔案。
colors = brewer.pal(8,"dark2")[-(1:4)]
data = read.csv("wordcount.txt") #讀取設定的詞及頻度,用於顯示。
#然後呼叫wordcloud函式,每個引數都有各自的含義,具體可在網上查閱。
wordcloud(data$name,data$count,scale=c(3,0.4),min.freq = -inf,max.words=178,colors = colors,random.order = f,random.color = t,ordered.colors = f)
dev.off()
截個圖
R語言文字分析(5)
採用移除稀疏專案的方法,將稀疏專案移除,得到新的專案文件矩陣,並對裁剪過的專案進行聚類分析。通過剪枝合併的方法可以獲得幾個類團。也可以採用k means進行聚類分析。移除sparse專案 mytdm2 removesparseterms mytdm,sparse 0.95 m2 as.matrix ...
R語言做文字挖掘 Part4文字分類
part4文字分類 part3文字聚類裡講到過,分類跟聚類的簡單差異。所以要做分類我們需要先整理出乙個訓練集,也就是已經有明確分類的文字 測試集,可以就用訓練集來替代 集,就是未分類的文字,是分類方法最後的應用實現。1.資料準備 訓練集準備是乙個很繁瑣的功能,暫時沒發現什麼省力的辦法,根據文字內容去...
語言文字分析(1)
語言在資料探勘中應用廣泛,並有越來越火的趨勢。語言進行文字挖掘也是相當好使。作為乙個 語言新手,追隨著眾多牛人的腳步,嘗試使用 語言進行文字挖掘分析,過程應是充滿艱辛,道路曲折坎坷之處write down以記錄之。我從text analysis with r for students of lite...