1 資料溯源綜述
1.1 概念和定義
資料溯源(data provenance)是乙個新興的研究領域,誕生於 20 世紀 90 年代。當初,某些文獻將其稱為資料志或資料檔案,後來,大部分文獻將其命名為資料起源,有追蹤資料的起源和重現資料的歷史狀態之意。本文稱其為資料溯源,從應用的角度出發,強調追蹤的過程和方法。
1、將資料溯源定義為從源資料到資料產品的衍生過程資訊;
2、在資料庫領域將其定義為「資料及其在資料庫間運動的起源」;
3、資料溯源是對目標資料衍生前的原始資料以及演變過程的描述;
4、資料溯源是一種元資料,用來記錄工作流演變過程、標註資訊以及實驗過程等資訊。
在其它一些領域中還有其它一些叫法: 如資料族系( data lineage) 、資料系譜( data pedigree) 、資料**( data origin) 、資料世系等。
資料溯源定義為記錄原始資料在整個生命週期內( 從產生、傳播到消亡)的演變資訊和演變處理內容。我們認為,data provenance 應該翻譯成「資料溯源」,強調的是一種溯本追源的技術,根據追蹤路徑重現資料的歷史狀態和演變過程,實現資料歷史檔案的追溯。
1.2 資料溯源模型
建立乙個資料模型是資料溯源的關鍵技術。根據模型可以初步確定資料溯源的大體步驟和基本思路。
從資料溯源資訊管理的角度出發,提出異構資料的資料溯源概念。即採用橫軸表示時間(t)、縱軸表示過程(p)、z軸表示資料的異構分布特性。將資料溯源資訊儲存到不同的資料庫中,形成攜帶溯源資訊的異構資料庫。通過資料庫介面以及資料轉換工具匯聚成目標資料庫。這個過程的逆過程所經歷的路徑能夠實現資料溯源的各種操作,如:資料追蹤、資訊評估、過程重現等,從而完成資料溯源任務。
1.3 幾種主要的資料溯源模型
目前,資料溯源模型主要有:流溯源資訊模型、時間-值中心溯源模型、四維溯源模型、開放的資料溯源模型、provenir資料溯源模型、資料溯源安全模型,print 資料溯源模型等,這些模型都建立在不同領域、不同行業。
1、流溯源資訊模型由 6 個相關實體構成,主要包括流實體(變化事件實體、元資料實體和查詢輸入實體) 和查詢實體(變化事件實體、接收查詢輸入實體,包括元資料實體)。實體間關係密切,通過這種密切的關係可以根據資料的溯源時間來推斷資料溯源。
2、bow ers s 提出的
time-value centric ( tvc ) 模型又稱時間-值中心溯源模型,是一種簡單有效的溯源模型。由於過去的溯源模型無論是基於標註的還是基於過程的溯源模型都用於面向交易的系統中,並不適合高容量特定需求以及連續的醫療流。於是,提出支援醫療領域資料來源特點的 tvc 模型專門處理醫療事件流的溯源資訊。根據資料中的時間戳和流 id 號來推斷醫療事件的序列和原始資料的痕跡。
3、四維溯源模型是由 yogesh l.
simmhan 等人提出。此模型將溯源看成一系列離散的活動集,這些活動發生在整個工作流生命週期中,並由四個維度(
時間、空間、層和資料流分布) 組成。四維溯源模型通過時間維區分標註鏈中處於不同活動層中的多個活動,進而通過追蹤發生在不同工作流元件中的活動,捕獲工作流溯源和支援工作流執行的資料溯源。
4、開放的資料溯源模型 opm,在首屆
international provenance and annotation workshop( ipaw) 會議中,與會者對資料溯源的描述產生了一些共同的觀念,並提出了一種原始的資料模型。後來,南安普頓大學等組織整理了會議的主要思想並發表了題為「the open provenance model」文章,文中提及的模型基本形成業界資訊交換標準,定義一些具體的格式和協議就能應用到實際當中。
5、provenir資料溯源。模型2023年,在由freire和moreau組織的第二屆
ipaw 會議中,sahoo 等人提出了provenir 資料溯源模型,該模型使用w3c 標準對模型加以邏輯描述,考慮了資料庫和工作流兩個領域的具體細節,從模型、儲存到應用等方面形成了乙個完整的體系,成為首個完整的資料溯源管理系統。用分類的方式闡明它們之間的相互關係.
該模型提供對資料產生歷史的元資料、原資料、修改元資料等功能,並使用物化檢視的方法有效解決了資料溯源的儲存問題.
6、資料溯源安全模型。資料溯源技術能夠溯本追源,通過其起源鏈的記錄資訊來實現追源的目的,但是記錄資訊本身也是資料。因此,同樣存在安全隱患,為了防止有人惡意篡改資料溯源中起源鏈的相關資訊,李秀美等 2010 年研究了資料溯源的安全模型,利用金鑰樹再生成的方法並引入時間戳引數,有效地防止某人惡意篡改溯源鏈中的溯源記錄,對資料物件在生命週期內修改行為的記錄按時間先後組成溯源鏈,用文件來記載資料的修改行為,當進行各種操作時,文件隨著資料的演變而更新其內容,通過對文件新增一些無法修改的引數比如: 時間戳、加密金鑰、校驗和等來限制操作許可權,保護溯源鏈的安全。
7、print資料溯源模型。print是一種支援例項級資料一體化程序的資料溯源模型。該模型主要集中解決一體化程序系統中不允許使用者直接更新異構資料來源而導致資料不一致的問題。由 print提供的再現性是基於日誌記錄的,並將資料溯源納入一體化程序。
以上七種模型是比較經典的模型,其中,對於前三種模型而言,流模型和時間-值模型沒有明確指出對 w7 模式的支援,只有四維模型支援動態構建資料溯源圖,能根據一系列溯源事件以及資料結點和服務結點所構成的資料流邊來構建。存在的不足之處在於形成過程不直接,難於理解。後面幾種模型是從不同的角度,不同層次,針對資料溯源的某種特性而建立起來的模型。隨著時間的推移,資料溯源模型會越來越多。
1.4 資料溯源方法
目前,資料溯源追蹤的主要方法有標註法和反向查詢法。除此之外,還有通 用的資料追蹤方法,雙向指標追蹤法,利用圖論思想和專用查詢語言追蹤法,以及文獻提出以位向量儲存定位等方法。
標註法是一種簡單且有效的資料溯源方法,使用非常廣泛。通過記錄處理相關的資訊來追溯資料的歷史狀態,即用標註的方式來記錄原始資料的一些重要資訊,如背景、作者、時間、出處等,並讓標註和資料一起傳播,通過檢視目標資料的標註來獲得資料的溯源。sudha等人提出的7w模型,就是採用標註法,事先標記並攜帶溯源資訊完成資料溯源的模型,被稱為eager方法。採用標註法來進行資料溯源雖然簡單,但儲存標註資訊需要額外的儲存空間。反向查詢法,有的文獻也稱逆置函式法。由於標註法並不適合細粒度資料,特別是大資料集中的資料溯源,於是,提出了逆置函式反向查詢法,此方法是通過逆向查詢或構造逆向函式對查詢求逆,或者說根據轉換過程反向推導,由結果追溯到原資料的過程。這種方法是在需要時才計算所以又叫lazzy方法。反向查詢法關鍵是要構造出逆向函式,逆向函式構造的好與壞直接影響查詢的效果以及演算法的效能,與標註法相比,它比較複雜,但需要的儲存空間比標註法要小。
1.5 資料溯源的應用
資料溯源最早僅用於資料庫、資料倉儲系統中,後來發展到對資料真實性要求比較高的各個領域: 如生物、歷史、考古、天文、醫學等。隨著網際網路的迅猛發展以及網路欺騙行為的頻繁發生,人們越來越懷疑資料的真偽,對資料的真實性要求越來越高。資料溯源成為考究資料真假的有效途徑,掀起了一波資料溯源研究的熱潮,因此,資料溯源追蹤逐漸擴充套件到計算機各行各業。目前,研究領域已經覆蓋到地理資訊系統( gis) 、雲計算、網格計算、普適計算、無線感測器網路和語義網路等。其中,資料溯源在資料庫和工作流領域的研究最為流行。
原理 資料溯源 什麼是區塊鏈溯源?
區塊鏈是乙個共享資料庫,儲存於其中的資料或資訊,具有 不可偽造 全程留痕 可以追溯 公開透明 集體維護 等特徵。基於這些特徵,區塊鏈技術奠定了堅實的 信任 基礎,創造了可靠的 合作 機制。簡易的理解區塊鏈 假設環境 未用區塊鏈前 你大學寢室擁有共同的啟用資金。之前都是由你記賬的,全宿舍的人都把錢統一...
原理 資料溯源 區塊鏈能溯源,產品銷量公升了
區塊鏈是乙個共享資料庫,儲存於其中的資料或資訊,具有 不可偽造 全程留痕 可以追溯 公開透明 集體維護 等特徵。基於這些特徵,區塊鏈技術奠定了堅實的 信任 基礎,創造了可靠的 合作 機制。簡易的理解區塊鏈 假設環境 未用區塊鏈前 你大學寢室擁有共同的啟用資金。之前都是由你記賬的,全宿舍的人都把錢統一...
區塊鏈溯源產品對比 科普帖 什麼是區塊鏈溯源
科普貼 簡易的理解區塊鏈 假設環境 未用區塊鏈前 你大學寢室擁有共同的啟用資金。之前都是由你記賬的,全宿舍的人都把錢統一交給你,你記到賬本上。中間如果你貪了一點小錢,為了不讓被發現,你會在賬本上記錄少的那部分錢,而別人不會發現。使用區塊鏈技術以後 相當於全宿舍都可以記賬,你在記賬,其他舍友也可以記賬...