這是開始做核心演算法的第二天,主要實現sting層次聚類演算法。這演算法單獨實現倒簡單,可畢設要求的是文字聚類,要從文字->預處理->vsm表示->計算權值->成為可以由sting使用的資料。每篇文字中的詞都是不定的,文章數也是不定的。要用vsm表示文字,很有難度,在國外**上找到了個vsm例子:
也就是說,如果文字1表示的向量對應有n個詞。這時候引入文字2,文字2多出乙個文字1中沒有的詞。文字2加入後,同樣需要在文字1的表示向量中增加這個詞。如果文字對應的詞作為行標,而文字作為列標構成1個矩陣的話,這個矩陣在加入新文字時是向2個維度動態增長的!
我琢磨了半天,最後造出了個二維hash矩陣個詭異資料結構。果然很好用,矩陣實現了2個維度的快速查詢,並且可以向兩個維度動態增長。具體實現就不說了。得益於優秀的apr庫,拿c語言編碼出這個二維hash矩陣才用了200多行**~
畢設開發日誌2017 11 03
工作總結 又到新的周五,總結一下這個周。1.這週的工作節奏基本比較平緩,自己作息也比較規律,然後專案進度也是比較緩慢的推進著。2.基本框架有了之後後面新增別的功能應該就快了。但是今天發現之前做介面監控的那個 一直沒有更新資料,所以需要更改一下實時資料查詢的那個類,這次直接監控國家資料中心的資料,可靠...
畢設今日總結(三)
今天 明天 還是有點不太明白cvcalcpca是怎麼用的,pca建構函式又是幹嗎用的。數學不好的我表示原理神馬的根本沒看懂o 口 o,寫 的時候再說吧。void pca project inputarrayvec,outputarrayresult const pca pca inputarrayd...
php畢設周記 畢設周記
第一周 一 老師講解畢業設計總體要求和注意事項,確定題目為 設計。第一周 二 老師講解查詢檔案的方法。圍繞畢設主題,充分利用學校圖書館 期刊 雜誌 網路等資源,對所選取的資料將進行反覆閱讀並理解,遇到複雜難 懂的問題及時與導師聯絡,取得幫助。最終確定了所需要的硬體裝置。第二週 一 開始研讀。熟悉本課...