在等價的引用被轉變和識別後,許多應用提出了另乙個問題:這些實體間的多樣化的關係是怎樣的?這其中,第乙個被探索的實體關係是家庭關係(household relationship),即不同的實體居住在同乙個家庭裡,營銷公司最先看到這其中的價值。有趣的是,到目前為止,家庭關係仍是最難定義和管理的。對此最簡單的定義方式是:住在同乙個地方有著相同姓氏的人。這樣的定義簡單易行,但它並不能覺察文化和人口改變的導致的細微變化。例如,保留娘家姓的妻子,沒有結婚的夫妻,妻子與前夫所生的孩子,以及數代同堂的大家庭。
家庭的概念也可以應用到業務實體,即某個業務實體是否擁有另乙個業務實體或者是乙個更大的實體的當地分支。由鄧氏編碼(d-u-n-s)聞名的鄧白氏公司(dunn & bradstreet)對企業集團的概念(corporate householding)進行了編碼。現在它也是乙個熱門的研究領域(madnick, wang, xian, 2004)。
探索實體關係是實體解析和資料探勘之間的交集。資料探勘是發現模糊的(或者不明顯的)關係。記錄或資料庫例項的定義是乙個明確的屬性值之間的關係,即他們是相同的實體。er可以被認為是資料探勘,其目標是使等價的實體引用清楚明確。
就像小世界的假設(watts, stogatz, 1998),實體關係可以劃分為不同的等級。era3可以被認為是選擇相差為零級的引用,以代表他們的等價性。當兩個實體有直接的關聯,例如家庭關係,此時為1級差別。按傳統的定義,所有的家庭成員共享乙個姓氏和住宅位址,這個姓氏和位址是匹配的。如果是乙個間接的關聯的話,則稱其有2級差別。例如,假設john和bill合租乙個公寓,而bill和tom是abc俱樂部的的成員。雖然john和tom沒有見過,但他們有乙個共同的關聯就是都認識bill。2級差別要求兩者有兩個或者以上的間接關聯。
實體之間的關聯,可以通過實體間已知的各種屬性關聯的組合來確定,例如共用的**或郵箱。或者是如斷言關係,像是**號碼間的聯絡歷史或者郵局位址變更的記錄。如同實體抽取過程,實體間關聯網路的分析也有著大量可以利用的研究主體供從業人員進行研究。
《實體解析與資訊質量》 創作動力
實體解析 er 和資訊質量 iq 是資訊科學領域的兩門新興學科。我寄望這本書能夠為該領域不斷增長的知識儲備做出一定的貢獻。我覺得參與發起一門新興學科是一件很有意義的事情,籍此來組織資訊質量學科的第乙個研究生學位課程,則猶如一段令人興奮的旅程。這其中的乙個重要挑戰,便為學生們尋找合適的書籍和學習資源,...
《實體解析與資訊質量》 1 2 6 總結
實體解析就是對引用做出判斷,它是否指相等是向現實世界的實體。鏈結是乙個附加的共通的例項引用以此標識他們是等價的。身份識別,記錄鏈結,記錄匹配,記錄去重,合併清除,還有實體解析這些都代表了er的特定形式或方面。廣義地來說,er包含五個主要步驟 實體引用抽取,實體引用準備,實體引用解析,實體身份管理,和...
《實體解析與資訊質量》 2 2 1 複習題
1.從財務的角度上怎樣定義 資產 資訊在哪些角度符合這種定義?又在哪些角度不符合?2.資訊質量的度量單位是什麼?3.舉例來說明這樣一種情況 同一條資訊在它的當中乙個應用中具有較高質量。在還有乙個應用中的質量則較低。4.找到一篇關於資訊質量或資料質量的多維度框架的文章或書籍。解釋它與wang stro...