R語言文字挖掘應用標籤雲

雖然總有人對比python與r的實用性，但是作為資料分析的目標而言，工具不是重點，目標需求才是首要關注點，所以，今天嘗試用r自帶的一系列工具包來完成對於文字內容的挖掘，並利用標籤雲展示詞頻關係。

- 工具包- 程式設計環境

r編譯直譯器

rstudio（介面簡潔，操作方便，整合大量實用功能）

- 挖掘展示過程

大體步驟分如下：

1.資料來源的讀入，整合並做分詞

test <- readlines(「corpus.txt」, encoding = 『utf-8』)

mixseg = worker(stop_word = 「stop_words.utf8」)

words = c()

for (i in test)

注：worker()函式建立分詞環境，這裡新增停用詞路徑，其他引數可使用？worker訪問檢視，將分割後的詞語利用陣列列表words儲存；

2.資料頻次統計，排序篩選，並製作資料幀data.frame

word = table(words)

word <- sort(word, decreasing = true)

word = word[1:100]

d = data.frame(word = names(word), freq = word)

注：利用table函式統計列表中的詞頻次，然後降序排列，最後利用data.frame函式產生frame資料集，包含名稱和頻次兩列

3.利用wordcloud繪製標籤雲

mycolors <- brewer.pal(8, 「dark2」)

wordcloud(d$word,d$freq, random.order = false, random.color= false, colors = mycolors, family = 「myfont3」)

注：利用brewer.pal(n,color)函式產生顏色集，第乙個引數n是顏色個數，第二個color引數表示顏色集系列；wordcloud的前兩個引數即是對應的詞及頻次。

《R語言資料探勘》 1 3 資料探勘

1.3 資料探勘資料探勘就是在資料中發現乙個模型，它也稱為探索性資料分析，即從資料中發現有用的有效的意想不到的且可以理解的知識。有些目標與其他科學，如統計學人工智慧機器學習和模式識別是相同的。在大多數情況下，資料探勘通常被視為乙個演算法問題。聚類分類關聯規則學習異常檢測回歸和總結都...

R語言做文字挖掘 Part4文字分類

part4文字分類 part3文字聚類裡講到過，分類跟聚類的簡單差異。所以要做分類我們需要先整理出乙個訓練集，也就是已經有明確分類的文字測試集，可以就用訓練集來替代集，就是未分類的文字，是分類方法最後的應用實現。1.資料準備訓練集準備是乙個很繁瑣的功能，暫時沒發現什麼省力的辦法，根據文字內容去...

R語言資料探勘資料

包含理論知識與rpart包例項。包含演算法的自行實現，以及rweka包的c4.5演算法 tree包的cart演算法。離散選擇模型大師kenneth train的個人主頁，提供了matlab r和gauss的源個人推薦r 中的rsghb包，採用的估計方法是hierarchical bayes演算法，...

R語言 文字挖掘應用 標籤雲

《R語言資料探勘》 1 3 資料探勘

R語言做文字挖掘 Part4文字分類

R語言資料探勘資料

相關推薦

R語言文字挖掘應用標籤雲