silk
silk是乙個用於整合異構資料來源的開源框架。silk的主要用途包括:
關聯資料發布者可以使用silk將rdf鏈結從其資料來源設定為web上的其他資料來源。
將資料轉換應用於結構化資料來源。
silk基於linked data範例,它基於兩個簡單的想法:首先,rdf提供表達結構化資訊的表達資料模型。其次,rdf鏈結在不同資料來源中的實體之間設定。關於關聯資料的背景資訊和資料網的願景可以在概述文章 linked data - the story so far和linked data book
.中找到。
鏈結資料來源
使用宣告性silk-link規範語言(silk-lsl),開發人員可以指定在資料來源之間應該發現哪些型別的rdf鏈結,以及資料項必須滿足哪些條件才能相互鏈結。這些鏈結條件可以組合各種相似性度量,並且可以考慮資料項周圍的圖,這使用rdf路徑語言來解決。silk訪問應通過sparql協議鏈結的資料來源,因此可用於本地和遠端sparql端點。鏈結規範可以使用silk workbench圖形使用者介面建立,也可以使用xml手動建立。
用於指定鏈結規則的靈活的宣告性語言
在分布式環境中使用(通過訪問本地和遠端sparql端點)
適用於來自不同詞彙表的術語混合且不存在一致的rdfs或owl架構的情況
通過高效的資料處理實現可擴充套件性和高效能(與silk 0.2相比,加速因子為20):
雖然整合工作流程的主要部分在於資料來源的鏈結。來自不同**的資料集有時需要在互連之前協調模式和資料格式。為此,silk使使用者能夠建立和執行輕量級轉換規則。轉換規則可用於:
資料清理,例如,刪除不需要的值
在不同屬性之間進行對映或使用生成的值新增新屬性。
在不同資料格式之間轉換。資料可以從諸如rdf,csv或xml之類的源讀取。通常,輸出將寫入可以使用sparql查詢的rdf儲存,但也可以將資料寫入csv以匯入關聯式資料庫或在excel中開啟。
silk workbench是乙個web應用程式,它引導使用者完成鏈結不同資料來源的過程。
silk workbench提供以下功能:
它使使用者能夠管理不同的資料來源集,鏈結任務和轉換任務。
由於找到乙個好的鏈結啟發式通常是乙個迭代過程,silk workbench使使用者可以快速評估當前鏈結規範生成的鏈結。
wiki中
提供了silk workbench
的文件。
silk single machine用於在單台機器上生成rdf鏈結。應該相互鏈結的資料集可以駐留在同一臺機器上,也可以駐留在通過sparql協議訪問的遠端機器上。silk single machine提供多執行緒和快取。此外,使用multiblock阻塞演算法進一步增強了效能。
silk mapreduce用於使用多台機器的集群在資料集之間生成rdf鏈結。silk mapreduce基於hadoop,例如可以在amazon elastic mapreduce上執行。silk mapreduce通過將鏈結生成分發到多台機器,使silk能夠擴充套件到非常大的資料集。
silk server可用作從web使用關聯資料的應用程式中的標識解析元件。silk server提供http api,用於匹配傳入的rdf資料流中的實體,同時跟蹤已知實體。它可以與linked data爬蟲一起使用,以使用來自web的資料填充本地無重複快取。
自由文字預處理工具的主要目標是生成包含自由文字或從自由文字派生的資料的結構化表示。該工具將rdf檔案作為輸入,該檔案具有帶自由文字值的屬性和包含用於學習提取模型的結構化資料的附加rdf檔案。基於學習的模型,該工具從自由文字中提取新的屬性 - 值對。結果輸出是包含提取的結構化值的rdf轉儲檔案。使用基於xml的宣告式語言,使用者可以指定要使用的提取方法。
wiki中
提供了silk free text
預處理器的文件。
OLEdb連線簡介
有許多種辦法可以連上乙個資料庫.你可以用system dsn,dsn less連線或是本地的oledb provider.oledb?這是什麼什麼玩藝兒?也許你們中的許多人以前沒有聽說過.要回答這個問題,我們先得回顧一下資料庫連線的歷史.早期的資料庫連線是非常困難的.每個資料庫的格式都不一樣,開發者...
資料庫連線池簡介
資料庫連線是一種關鍵的有限的昂貴的資源,這一點在多使用者網頁應用程式中尤為突出。對資料庫連線的管理能顯著影響到整個應用程式的伸縮性和健壯性,影響到程式的效能指標。資料庫連線池正是針對這個問題提出來的。資料庫連線池負責分配管理和釋放資料庫連線,它允許應用程式重複使用乙個現有的資料庫連線,而不是再重新建...
資料庫連線池簡介
資料庫連線是一種關鍵的有限的昂貴的資源,這一點在多使用者的網頁應用程式中體現得尤為突出。對資料庫連線的管理能顯著影響到整個應用程式的伸縮性和健壯性,影響到程式的效能指標。資料庫連線池正是針對這個問題提出來的。資料庫連線池負責分配 管理和釋放資料庫連線,它允許應用程式重複使用乙個現有的資料庫連線,而再...