實體解析就是對引用做出判斷,它是否指相等是向現實世界的實體。鏈結是乙個附加的共通的例項引用以此標識他們是等價的。身份識別,記錄鏈結,記錄匹配,記錄去重,合併清除,還有實體解析這些都代表了er的特定形式或方面。廣義地來說,er包含五個主要步驟:實體引用抽取,實體引用準備,實體引用解析,實體身份管理,和實體關係分析。
在這5個步驟中精確和模糊匹配是很重要的工具,但是引用的直接匹配並不是確定引用等價唯一的方法。其他方法包括鏈結傳遞,鏈結聯想和鏈結斷言。
er系統有4條架構原則:合併清除/記錄鏈結,異構資料庫連線,身份識別,還有身份採集。合併清除是最基本和常見的er,實體引用是系統的相互比較並且劃分到等效的記錄集群(子集)。異構資料庫連線系統是一種事務性的er系統,輸入引用的屬性值被翻譯成不同的資料庫和資料庫表的查詢。查詢結果會被進行分析,以確定資料庫中是否有與輸入等價的引用。在身份識別架構中,傳入的引用對於一組身份管理進行解析。每個身份在身份識別系統中都有乙個持續的識別符號,它鏈結到等價身份的引用,乙個持續的識別符號就是這樣建立的。身份採集架構是身份識別的一種方式,它通過一組通過引用它構建身份來進行處理,而不是一組未知的身份。
《實體解析與資訊質量》 創作動力
實體解析 er 和資訊質量 iq 是資訊科學領域的兩門新興學科。我寄望這本書能夠為該領域不斷增長的知識儲備做出一定的貢獻。我覺得參與發起一門新興學科是一件很有意義的事情,籍此來組織資訊質量學科的第乙個研究生學位課程,則猶如一段令人興奮的旅程。這其中的乙個重要挑戰,便為學生們尋找合適的書籍和學習資源,...
《實體解析與資訊質量》 1 2 5 實體關係分析
在等價的引用被轉變和識別後,許多應用提出了另乙個問題 這些實體間的多樣化的關係是怎樣的?這其中,第乙個被探索的實體關係是家庭關係 household relationship 即不同的實體居住在同乙個家庭裡,營銷公司最先看到這其中的價值。有趣的是,到目前為止,家庭關係仍是最難定義和管理的。對此最簡單...
《實體解析與資訊質量》 2 2 1 複習題
1.從財務的角度上怎樣定義 資產 資訊在哪些角度符合這種定義?又在哪些角度不符合?2.資訊質量的度量單位是什麼?3.舉例來說明這樣一種情況 同一條資訊在它的當中乙個應用中具有較高質量。在還有乙個應用中的質量則較低。4.找到一篇關於資訊質量或資料質量的多維度框架的文章或書籍。解釋它與wang stro...