在中嘗試了貼標籤後,一直覺得結果無法接受, 慢慢回想, 其實選擇的演算法是錯誤的,原因有
既然沒法簡單的給帖子分類,那麼就嘗試一下聚類演算法看看有沒有發現:
#view code事先已經把分好詞的所有文字存成乙個檔案,沒有事先分類
f = codecs.open('
forum_all.txt
', '
r', '
utf-8')
words_full =f.readlines()
f.close()
true_k = 5 #
事先預設分成5類
vectorizer = tfidfvectorizer(max_df=0.5, max_features=1000,
min_df=2)
transformer =tfidftransformer()
td =vectorizer.fit_transform(words_full)
tfidf =transformer.fit_transform(td)
word =np.array(vectorizer.get_feature_names())
km = kmeans(n_clusters=true_ke, init='
k-means++
', max_iter=200, n_init=1)
km.fit(td)
print(u"
silhouette coefficient(輪廓係數): %0.3f
" % metrics.silhouette_score(td, km.labels_, sample_size=5000))
order_centroids = km.cluster_centers_.argsort()[:, ::-1]
terms =vectorizer.get_feature_names()
for i in range(true_ke): #
輸出每個分類頭10個特徵詞
for ind in order_centroids[i, :10]:
print'%s
' %terms[ind],
''
執行結果
silhouette coefficient(輪廓係數): 0.137cluster 0: 1634posts從這個分類結果來看,我抓取的論壇板塊主要討論的是:顯示卡 識別 獨立 安裝 如何 方法 教程 最後 破解版 reloaded
cluster 1: 4388posts
cluster 2: 1677posts
彙總 資源 dlc6 22 10更新 pes2014 分享 謝謝 支援
cluster 3: 7872posts
wecn 發布 正式 pes2016 patch v2 簡體中文 漢化 v1 補丁
cluster 4: 11287posts
pes2014 疑難解答 補丁 更新 球員 10 球場 分享 pes2016 謝謝
ps, 分類數5其實只是個隨便定下的值. 之所以最終選5, 只是在測試了從3到12的分類後, 發現輪廓係數在5開始步入穩定狀態,提公升不大.
最後,附上個特徵向量經降維後作的分類散點圖
遊戲運營的資料分析
這幾天一直在看如何展開資料分析文章,大家寫的都不錯,說實話,針對如何展開遊戲運營資料分析的指導真的非常少,作為每個公司的核心機密是不會拿到臺面上與大家分享的,一段時期我上網看了很多的材料,當顯示不能滿足需求的時候,就要靠我們自己來挖掘。以下是我的結合一些文章後自己總結的資料分析的方法。分割線 資料分...
遊戲運營的資料分析
這幾天一直在看如何展開資料分析文章,大家寫的都不錯,說實話,針對如何展開遊戲運營資料分析的指導真的非常少,作為每個公司的核心機密是不會拿到臺面上與大家分享的,一段時期我上網看了很多的材料,當顯示不能滿足需求的時候,就要靠我們自己來挖掘。以下是我的結合一些文章後自己總結的資料分析的方法。分割線 資料分...
大資料分析,足球運動的「料理師」
球賽開始2小時前,prozone公司的資料分析師們就已經早早的坐在了各種裝置前。在接下來的4個小時內,他們將不斷的進行比賽記錄 慢鏡回放 動作分析,四年輪迴的等待換來這難得的豐收時刻。智慧型的他們知道,即使一天之隔的兩場比賽,隊員的表現也是截然不同的。憑藉對資料本能的直覺,每場比賽,他們都會穿梭於不...