lisha guo
beihang university
hailong sun
beihang university
xudong liu
beihang university
實體解析(entity resolution,er)是識別代表同一實體的資料記錄的過程。er是軟體和應用領域中乙個非常重要的問題。例如,使用er檢測重複的bug報告可以大大節省開發工作。在大多數情況下,由於er中涉及複雜的語義分析,人類可以比計算機演算法執行得更好。有鑑於此,眾包已成功融入er,以提高其準確性。然而,與計算機方法相比,眾包成本更高。在這項工作中,我們提出了一種方法來減少問題的數量,提出了聚類和傳遞性分析。首先,通過對兩個相似性閾值的適當選擇,利用無監督機器學習,在一定的相似性度量基礎上將記錄聚類為多個聚類。這樣,我們就可以刪掉記錄對,而無需詢問任何人。其次,我們設計了乙個集群合併演算法,該演算法能夠有效地選擇眾包問題,並利用資料傳遞性檢測同一實體對應的跨集群記錄。最後,我們對兩個真實資料集進行了廣泛的實驗,結果表明,我們的方法在產生的成本和f1度量方面明顯優於現有的方法。
實體解析(er)是從乙個或多個資料來源中查詢引用同一實體的記錄的任務。一方面,通常會發現許多引用同一實體的記錄並不完全相同[12]。另一方面,也存在一些看起來相似但實際上指不同實體的記錄。在這些情況下,er任務對計算機來說是非常具有挑戰性的,但對人類來說更容易。借助眾包平台,我們可以方便地將人力資源工作帶入er流程中[14]。由於人類的計算是昂貴和耗時的,所以向人類提出所有成對的問題是不可行的。本文提出了一種基於聚類和傳遞性的方法來減少工人的問題對數量。
我們可以利用傳遞性省略一些多餘的問題對。例如,如果a和b指同一實體,b和c指同一(不同)實體,我們可以通過傳遞性推斷a和c指同一(不同)實體,而不要求工人貼標籤。此外,我們發現適當的標籤順序有助於減少因傳遞性而產生的配對數量。假設我們有三對候選標籤。實際上,只有a和b指的是同乙個實體。如果我們按照的順序標註問題對,作為上述傳遞性,我們只需要標記前兩對,並可以推斷b和c不指同乙個實體。但是,如果標籤的順序變為,我們需要標記所有三個候選對。
在我們的方法中,每個記錄最初表示乙個集群。首先,通過對兩個相似性閾值的適當選擇,利用無監督機器學習,在一定的相似性度量基礎上將記錄聚類為多個聚類。這樣,我們就可以刪掉記錄對,而無需詢問任何人。然後,在基於傳遞性的聚類過程中,引入人工來決定是否合併任何兩個聚類。此外,我們還設計了乙個演算法,從候選的集群對中選擇最佳的記錄對,供人類工人標記。
總之,我們的貢獻如下:
本文的其餘部分組織如下:第2節描述了傳遞性及其引理。然後,我們提出了一種基於傳遞性和聚類的演算法,以減少第3節中詳細描述的標籤候選對的數量。接下來,實驗結果將在第4節中介紹。最後,我們回顧了第5節中的相關工作,並在第6節中介紹了我們的結論和未來的工作。
在本節中,我們首先回顧了傳統的基於機器的er技術,然後描述了相似性和匹配可能性之間的關係。其次,我們建立了傳遞關係,並提出了傳遞性的引理。最後,我們簡單地證明了這個引理。
傳統的基於機器的實體解析技術通常基於相似性估計或機器學習[12]。利用相似度估計技術,將相似度高於給定閾值的記錄對視為同一實體。在機器學習領域,記錄對被表示為乙個由每個屬性的相似性組成的向量,而er成為乙個典型的兩類分類問題[3]。雖然有許多基於機器的演算法來估計記錄[3,4,11]之間的相似性,但它們的準確性仍然存在問題。通過將人類工人引入er過程,提出了一種基於聚類和傳遞性的方法來減少標籤問題的數量,獲得更準確的結果。為了利用傳遞性來減少候選對的數量,聚類過程的順序至關重要。正如我們之前所討論的,我們應該優先將更有可能成為同一實體的記錄進行集群。從直觀上看,相似性與匹配可能性之間似乎存在弱單調性。記錄之間的相似性值越高,匹配的可能性就越高。
在本節中,我們將闡述傳遞性,並討論如何利用er的這個重要約束來減少集群過程中用於標記的對的數量。首先,從正負兩個角度給出了傳遞性的形式化定義。
正傳遞性:如果r1與r2匹配,r2與r3匹配,則r1與r3匹配。
負傳遞性:如果r1與r2匹配,r2與r3不匹配,則r1與r3不匹配。
傳遞性依賴
1.傳遞性依賴 m en的傳遞性依賴機制可以很好的解決這一問題。我們還是以helloworld專案為例。我們可以從eclipse建立spring helloworld專案過程與m en建立spring helloworld專案過程看出差別來 1 eclipse建立spring helloworld專...
繼承的傳遞性
person 靜態 sname,gender,height,age,mobile,email 動態 run sleep 派生出 中國人 日本人 美國人 chinese person 動態 say 說中文 chinesestudent chinese pass 基類class person def i...
上下文的傳遞性
當dax表示式內需要對多個表單中的內容進行計算時,需要特別注意上下文的傳遞性。行上下文關係在表之間不具有自動傳播性。例如bike表和sales表之間是一對多的關聯關係,如果想計算每種產品的銷售額,直接使用sales volume bike price 進行計算時power bi會報錯,提示無法獲取當...