採用移除稀疏專案的方法,將稀疏專案移除,得到新的專案文件矩陣,並對裁剪過的專案進行聚類分析。
通過剪枝合併的方法可以獲得幾個類團。也可以採用k-means進行聚類分析。
# 移除sparse專案
mytdm2
<- removesparseterms(mytdm, sparse = 0.95)
m2<- as.matrix(mytdm2)
# cluster terms
distmatrix
<- dist(scale(m2))
fit<- hclust(distmatrix, method = "ward.d2")
plot(fit)
# cut tree into 10 clusters
rect.hclust(fit, k=10)
(groups <- cutree(fit, k=10))
# clustering the tweets with the k-means algorithm
m3<- t(m2)
# set a fix random seed
set.seed(222)
# k-means clustering of tweets
k<- 8
kmeansresult
<- kmeans(m3, k)
# cluster centers
round(kmeansresult$centers, digits = 3)
# check the top 3 words in every cluster
for (i in
1:k)
R語言 文字分類 1
因專案需要,結合自身專業知識,故而接觸了r語言及一些常用分類器。記錄下自己這乙個多月的學習歷程。與起源於貝爾實驗室的s語言類似,r也是一種為統計計算和繪圖而生的語言和環境,它是一套開源的資料分析解決方案,由乙個龐大且活躍的全球性研究型社群維護。r是一門指令碼語言,在繪圖方面有著非常強的能力,它可以讓...
語言文字分析(1)
語言在資料探勘中應用廣泛,並有越來越火的趨勢。語言進行文字挖掘也是相當好使。作為乙個 語言新手,追隨著眾多牛人的腳步,嘗試使用 語言進行文字挖掘分析,過程應是充滿艱辛,道路曲折坎坷之處write down以記錄之。我從text analysis with r for students of lite...
python,文字分析
記得將當前目錄設定為檔案目錄 spyder編譯器的右上角,本人用spyder filename input 請輸入你的檔名 file open filename txt try for eachline in file print eachline except print 開啟檔案出錯 final...