將自動聚類技術用於web資訊檢索結果的類別劃分,將檢索結果依據內容劃分為相應的類別,具有相似特徵的文件放在同一組,以便於使用者縮小查詢範圍。
所謂聚類就是將資料點劃分為若干個類或簇,使得同一類中的資料點之間具有較高的相似度,而不同類中的資料點之間具有較高的相異度。
1)基於劃分的方法:k均值演算法和k中心點
2)基於層次:按資料分層組織為若干聚類簇,並形成相應的一棵以簇為節點的樹來進行聚類。
3)基於密度的方法:從資料物件的分布密度出發,把密度足夠大的區域連線起來,從而能夠幫助發現具有任意形狀的聚類簇。
4)基於網格的方法:基於網格的聚類方法利用多為網格資料結構,把資料物件空間劃分為有限數目的單元,從而構建乙個可用於進行聚類分析的網格結構。
5)基於模型的方法:試圖優化給定資料集與某些數學模型之前的擬合度。
傳統的xml文件聚類方法:基於樹的表示方法和基於向量的表示方法(廣泛關注)。
研究對用於文字文件的文件向量進行擴充套件,使其包含xml的結構特徵。兩種已有的xml文件特徵方法:
1)將結構特徵與內容特徵結合的表示方法。
2)只考慮結構特徵的表示方法。
4.4.1 研究背景
對聚類技術首先對xml文件聚類,然後計算查詢與各xml聚簇之間的相似性,找到與查詢最相似的聚簇,xml語義檢索系統在這個相似聚簇中檢索與各個查詢項匹配的節點集,並檢查匹配節點集之間是否予以相關的。這樣匹配節點集的數量會大大減少,語義相關的節點對也將會減少。
4.4.2基於xml文件路徑的特徵向量矩陣
我們可以從所有xml文件中提取出長度小於或等於l的所有路徑,這些路徑作為xml文件集的特徵。
xml文件
p1p2
p3p4
p5p6
p7p8
p9doc111
1100
000doc210
0011
100doc310
0000
011
p1=university/teacher/name
p2=university/teacher/gender
p3=university/teacher/age
p4=university/teacher/email
p5=university/teacher/articles/title
p6=university/teacher/articles/publish
p7=university/teacher/articles/indexedby
p8=university/teacher/course/coursename
p9=university/teacher/articles/time
4.4.3 偶圖及其鄰接表示
兩種表示方式而已
4.4.4 相似度計算si
m(x,
y)=}>t,min}>t
4.9.4.5 演算法分析
該演算法的一次迭代中,白色節點的聚類和黑色節點的聚類同時進行,可以檢查出原圖中不明顯的相似節點,例如白色節點a和c的相似度低於闕值時,兩者不能歸為一類。但經過黑色節點1和2聚類後,重新計算a和c的相似度,這時a和c又有可能變得相似。
第4章 類與物件
什麼是物件?只要是客觀存在的事物都是物件。類與物件的關係?物件是對客觀事物的抽象,類是對物件的抽象。類是一種抽象的資料型別。它們的關係是,物件是類的例項,類是物件的模板。抽象 資料抽象 和 行為抽象 封裝 將抽象得到的資料和行為組合成乙個 類 繼承 使得子類具有父類的屬性和方法或者重新定義 追加屬性...
effective java第4章 類和介面
第13條 使類和成員的可訪問性最小化 第一規則 盡可能地使每個類或成員不被外界訪問 只有當同乙個包內的另乙個類真正需要訪問乙個成員的時候,你才應該刪除private修飾符。如果方法覆蓋了超類中的乙個方法,子類中的訪問級別就不允許低於超類中的訪問級別。這樣可確保任何可使用超類例項的地方也可以使用子類的...
第4章 整合
4.1 尋找理想的整合技術的指導原則 避免服務方修改乙個欄位就引起消費方的修改 保證api的技術無關性 消費方應該能夠很簡單的使用服務方提供的服務,提供客戶端庫的做法會增加耦合。隱藏內部實現細節 4.2 musiccorp建立使用者介面 4.3 共享資料庫 資料庫整合 即消費者直接訪問資料庫 的缺點...