文字聚類平移演算法的幾點問題
文字處理,我的最愛---題記
大概乙個月前 10b lobster 也和我聊起過盧亮介紹過的平移演算法,
詳細的介紹可以看這裡:盧亮的blog
。記得當時第二天就看到了carrot2的發布,
carrot2 上使用了多種聚類的演算法。
有些人對平移演算法嗤之以鼻,比如這位。在我看來,乙個演算法有沒有效果,要看這個演算法的前提和假設,大炮打小鳥怎麼瞄也不帶勁兒。在文字處理領域中,比如,中文分詞,特別是文字聚類的演算法上從來沒有乙個演算法可以解決所有問題,很多解決方案都是採用多個演算法取長補短來達到綜合效果的。
昨天寫關於標籤和書籤的blog時想到,在改善新聞閱讀器的文章分類也許平移演算法用的上。週末便用了半天做了乙個單向移動的平移演算法。
平移演算法,要考慮這個演算法適用的範圍,這個是前提。我實現的平移演算法和盧亮的目的不同,類似於我的:未登入詞識別
在演算法的具體設計上,還需要考慮以下幾個問題:
1、視窗大小,視窗借用了tcp發包的視窗的概念,就是確認有效匹配的長度;
2、平移的方向。我下面例子只實現了單向移動;
3、效率問題,平移演算法涉及了大量的比較,找到乙個最短的比較邊界還挺重要;
下面是乙份平移演算法的原始結果,找出所有it公司的人名,感覺還可以。進一步處理後,就可以投入實際應用了:
怎麼樣感覺還可以吧。
我正在實現乙個新聞句子提取引擎,做好後放到新聞閱讀器裡,這樣檢視高燃語錄(2005-2006語錄)的時候,可能會更方便。
文字聚類平移演算法的幾點問題
文字聚類平移演算法的幾點問題 文字處理,我的最愛 題記 大概乙個月前 10b lobster 也和我聊起過盧亮介紹過的平移演算法,詳細的介紹可以看這裡 盧亮的blog 記得當時第二天就看到了carrot2的發布,carrot2 上使用了多種聚類的演算法。有些人對平移演算法嗤之以鼻,比如這位。在我看來...
文字挖掘之聚類演算法之CLARA聚類演算法
clara 大型應用中的聚類方法 kaufmann and rousseeuw in 1990 不考慮整個資料集,而是選擇資料的一小部分作為樣本.clara演算法的步驟 它從資料集中抽取多個樣本集,對每個樣本集使用pam,並以最好的聚類作為輸出 clara 演算法的步驟 1 for i 1 to v...
基本k mean聚類的文字聚類演算法原理和例子
基於質心的劃分方法是研究最多的演算法,包括k mean聚類演算法及其各種變體,這些變體依據初始簇的選擇,物件的劃分 相識度的計算方法 簇中心的計算方法不同而不同。基於質心的劃分方法將簇中所有物件的平均值看做簇的質心,根據乙個資料物件與簇質心的距離,將該物件賦予最近的簇。在這類方法中,需要給定劃分的簇...