K means文字聚類系列（已經完成）

1。如何建立詞袋子模型 2

3。vsm模型

4。從weka獲取聚類中心，完成文字聚類

6。如何使用此開源框架即如何使用preprocess類

前言：園子裡有很多人對聚類演算法感興趣，在google檢索裡比較靠前的有

蛙蛙推薦：蛙蛙教你文字聚類

此版本**用c#語言編寫

以及洞庭散人根據上面這篇蛙蛙博文用c++語言實現的k-means演算法。基於

kmeans 的文字聚類

那麼讀者會納悶，既然有了上面的資料，我是否還有什麼必要在這裡嚼別人嚼過的饃，來顯擺乙個c++菜鳥的拙劣**。。。

那麼我就先來說說我這版k-means 與以上兩個版本的不同吧。

以上兩個版本，著重點在於 kmeans聚類演算法本身的實現，也就是蛙蛙和洞庭散人分別用了c#和c++語言實現了kmeans演算法，而稱不上是真正意義上的文字聚類：1。他們沒有嵌入分詞元件，只是自己粗糙地寫了個以空格作為分隔符的分詞函式。2。他們沒有真正意義上的語料庫。他們的待聚類文字是自己寫的幾句話。

而我這版kmeans,並不是側重於實現kmeans演算法本身的實現，而且借助於資料探勘領域著名的開源元件

weka

來實現聚類演算法。我的側重點在於實現

通用的文字預處理模組

。所謂文字預處理包括分詞-》去除停用詞=》建立詞袋子模型=》特徵詞選擇=》建立文件向量模型（vsm）模型。最後將測試文字的vsm模型寫成weka所要求的資料格式arff資料格式

。我所強調的是提供乙個

開源的框架

，只要完成我框架中所滿足的要求配置就可以用此框架完成文字預處理工作，將訓測試文件集合轉化成arff資料格式然後呼叫weka，使用weka完成文字聚類工作。最後將weka計算得到的聚類中心取出來，對於測試樣本集合中的每篇文章計算其與聚類中心的距離，完成聚類。

研究和學習

使用。首先宣告一點：在我的這套框架內，測試文字必須存放在資料庫中（mssql server2000）。目前這套框架還有很多不完善的地方，就當拋磚引玉吧，希望園子裡的高人和能人予以指點。

先給大家上兩個截圖，看看聚類效果吧。

測試語料庫情況（部分截圖）：

聚類後的結果：

各模組程式****含義的介紹已經完成以下兩個部分見：

同時在這裡感謝園友嗷嗷

以及galactic

a在寫c++程式過程中給予我的無私的，及時的幫助，謝謝！

K means文字聚類系列（已經完成）

文字聚類用k means對文字進行聚類

K means 無監督NLP文字聚類

機器學習聚類系列 K means演算法

K means文字聚類系列（已經完成）

文字聚類 用k means對文字進行聚類

K means 無監督NLP文字聚類

機器學習 聚類系列 K means演算法

相關推薦

文字聚類用k means對文字進行聚類

機器學習聚類系列 K means演算法