第4章 XML 聚類研究

2021-07-29 11:13:13 字數 1569 閱讀 8639

將自動聚類技術用於web資訊檢索結果的類別劃分,將檢索結果依據內容劃分為相應的類別,具有相似特徵的文件放在同一組,以便於使用者縮小查詢範圍。

所謂聚類就是將資料點劃分為若干個類或簇,使得同一類中的資料點之間具有較高的相似度,而不同類中的資料點之間具有較高的相異度。

1)基於劃分的方法:k均值演算法和k中心點

2)基於層次:按資料分層組織為若干聚類簇,並形成相應的一棵以簇為節點的樹來進行聚類。

3)基於密度的方法:從資料物件的分布密度出發,把密度足夠大的區域連線起來,從而能夠幫助發現具有任意形狀的聚類簇。

4)基於網格的方法:基於網格的聚類方法利用多為網格資料結構,把資料物件空間劃分為有限數目的單元,從而構建乙個可用於進行聚類分析的網格結構。

5)基於模型的方法:試圖優化給定資料集與某些數學模型之前的擬合度。

傳統的xml文件聚類方法:基於樹的表示方法和基於向量的表示方法(廣泛關注)。

研究對用於文字文件的文件向量進行擴充套件,使其包含xml的結構特徵。兩種已有的xml文件特徵方法:

1)將結構特徵與內容特徵結合的表示方法。

2)只考慮結構特徵的表示方法。

4.4.1 研究背景

對聚類技術首先對xml文件聚類,然後計算查詢與各xml聚簇之間的相似性,找到與查詢最相似的聚簇,xml語義檢索系統在這個相似聚簇中檢索與各個查詢項匹配的節點集,並檢查匹配節點集之間是否予以相關的。這樣匹配節點集的數量會大大減少,語義相關的節點對也將會減少。

4.4.2基於xml文件路徑的特徵向量矩陣

我們可以從所有xml文件中提取出長度小於或等於l的所有路徑,這些路徑作為xml文件集的特徵。

xml文件

p1p2

p3p4

p5p6

p7p8

p9doc111

1100

000doc210

0011

100doc310

0000

011

p1=university/teacher/name

p2=university/teacher/gender

p3=university/teacher/age

p4=university/teacher/email

p5=university/teacher/articles/title

p6=university/teacher/articles/publish

p7=university/teacher/articles/indexedby

p8=university/teacher/course/coursename

p9=university/teacher/articles/time

4.4.3 偶圖及其鄰接表示

兩種表示方式而已

4.4.4 相似度計算si

m(x,

y)=}>t,min}>t

4.9.4.5 演算法分析

該演算法的一次迭代中,白色節點的聚類和黑色節點的聚類同時進行,可以檢查出原圖中不明顯的相似節點,例如白色節點a和c的相似度低於闕值時,兩者不能歸為一類。但經過黑色節點1和2聚類後,重新計算a和c的相似度,這時a和c又有可能變得相似。

第4章 類與物件

什麼是物件?只要是客觀存在的事物都是物件。類與物件的關係?物件是對客觀事物的抽象,類是對物件的抽象。類是一種抽象的資料型別。它們的關係是,物件是類的例項,類是物件的模板。抽象 資料抽象 和 行為抽象 封裝 將抽象得到的資料和行為組合成乙個 類 繼承 使得子類具有父類的屬性和方法或者重新定義 追加屬性...

effective java第4章 類和介面

第13條 使類和成員的可訪問性最小化 第一規則 盡可能地使每個類或成員不被外界訪問 只有當同乙個包內的另乙個類真正需要訪問乙個成員的時候,你才應該刪除private修飾符。如果方法覆蓋了超類中的乙個方法,子類中的訪問級別就不允許低於超類中的訪問級別。這樣可確保任何可使用超類例項的地方也可以使用子類的...

第4章 整合

4.1 尋找理想的整合技術的指導原則 避免服務方修改乙個欄位就引起消費方的修改 保證api的技術無關性 消費方應該能夠很簡單的使用服務方提供的服務,提供客戶端庫的做法會增加耦合。隱藏內部實現細節 4.2 musiccorp建立使用者介面 4.3 共享資料庫 資料庫整合 即消費者直接訪問資料庫 的缺點...