足球遊戲論壇資料分析 簡單粗暴的K均值聚類

2022-08-16 11:51:09 字數 1762 閱讀 7251

在中嘗試了貼標籤後,一直覺得結果無法接受, 慢慢回想, 其實選擇的演算法是錯誤的,原因有

既然沒法簡單的給帖子分類,那麼就嘗試一下聚類演算法看看有沒有發現:

#

事先已經把分好詞的所有文字存成乙個檔案,沒有事先分類

f = codecs.open('

forum_all.txt

', '

r', '

utf-8')

words_full =f.readlines()

f.close()

true_k = 5 #

事先預設分成5類

vectorizer = tfidfvectorizer(max_df=0.5, max_features=1000,

min_df=2)

transformer =tfidftransformer()

td =vectorizer.fit_transform(words_full)

tfidf =transformer.fit_transform(td)

word =np.array(vectorizer.get_feature_names())

km = kmeans(n_clusters=true_ke, init='

k-means++

', max_iter=200, n_init=1)

km.fit(td)

print(u"

silhouette coefficient(輪廓係數): %0.3f

" % metrics.silhouette_score(td, km.labels_, sample_size=5000))

order_centroids = km.cluster_centers_.argsort()[:, ::-1]

terms =vectorizer.get_feature_names()

for i in range(true_ke): #

輸出每個分類頭10個特徵詞

for ind in order_centroids[i, :10]:

print'%s

' %terms[ind],

print

''

view code

執行結果

silhouette coefficient(輪廓係數): 0.137cluster 0:  1634posts

顯示卡 識別 獨立 安裝 如何 方法 教程 最後 破解版 reloaded

cluster 1: 4388posts

cluster 2: 1677posts

彙總 資源 dlc6 22 10更新 pes2014 分享 謝謝 支援

cluster 3: 7872posts

wecn 發布 正式 pes2016 patch v2 簡體中文 漢化 v1 補丁

cluster 4: 11287posts

pes2014 疑難解答 補丁 更新 球員 10 球場 分享 pes2016 謝謝

從這個分類結果來看,我抓取的論壇板塊主要討論的是:

ps, 分類數5其實只是個隨便定下的值.  之所以最終選5, 只是在測試了從3到12的分類後, 發現輪廓係數在5開始步入穩定狀態,提公升不大.

最後,附上個特徵向量經降維後作的分類散點圖

遊戲運營的資料分析

這幾天一直在看如何展開資料分析文章,大家寫的都不錯,說實話,針對如何展開遊戲運營資料分析的指導真的非常少,作為每個公司的核心機密是不會拿到臺面上與大家分享的,一段時期我上網看了很多的材料,當顯示不能滿足需求的時候,就要靠我們自己來挖掘。以下是我的結合一些文章後自己總結的資料分析的方法。分割線 資料分...

遊戲運營的資料分析

這幾天一直在看如何展開資料分析文章,大家寫的都不錯,說實話,針對如何展開遊戲運營資料分析的指導真的非常少,作為每個公司的核心機密是不會拿到臺面上與大家分享的,一段時期我上網看了很多的材料,當顯示不能滿足需求的時候,就要靠我們自己來挖掘。以下是我的結合一些文章後自己總結的資料分析的方法。分割線 資料分...

大資料分析,足球運動的「料理師」

球賽開始2小時前,prozone公司的資料分析師們就已經早早的坐在了各種裝置前。在接下來的4個小時內,他們將不斷的進行比賽記錄 慢鏡回放 動作分析,四年輪迴的等待換來這難得的豐收時刻。智慧型的他們知道,即使一天之隔的兩場比賽,隊員的表現也是截然不同的。憑藉對資料本能的直覺,每場比賽,他們都會穿梭於不...