並行網路儲存系統是浪潮儲存開發的新一代網路儲存系統。浪潮並行檔案系統以pvfs作為開發原型,並在此基礎上進行改進,使其與並行網路儲存系統緊密結合。在這裡,將對基於pvfs的浪潮並行檔案系統作乙個簡單的介紹。
pvfs的優點和缺憾
在網路後台,以集群的形式來擴大資料存放空間已經成為乙個不可避免的趨勢,而在應用端,多機多個程序訪問的需求也在日益增長。在這種應用的迫切需求下,並行檔案系統便油然而生。
所謂並行檔案系統,是指應用於多機環境的網路檔案系統,單個檔案的資料採用分條等形式存放於不同的i/o節點之上,支援多機多個程序的併發訪問,同時支援元資料和資料的分布存放,並提供單一的目錄空間。而要實現乙個完整的並行檔案系統,需要實現如下兩個方面:第一,實現單一的檔案映像,並行檔案存放在盤陣上的具體分布情況對於使用者來說是透明的,並行檔案系統在使用者看來是一完整的樹型結構,在呼叫時只要給出檔名即可;第二,採用條(stripe)和分割槽(partition)技術,支援乙個檔案資料在多個磁碟之上和多個程序之間的分布,即多個程序併發讀寫多個磁碟上的資料。
在經過比較和甄選,我們選擇了pvfs(並行虛擬檔案系統)作為開發原型。pvfs採用客戶-伺服器架構,利用一組協作的使用者空間程序(daemon),提供乙個群集範圍內的一致的命名空間,並將資料條塊化,分配到集群節點中。pvfs提供可靠的通訊環境,客戶和伺服器之間的資訊傳遞通過tcp/ip完成。
pvfs使用了三種型別的節點:管理節點、i/o節點和計算節點。管理節點執行元資料伺服器(mgr daemon),處理所有的檔案元資料(元資料是描述檔案資訊的檔案);i/o節點執行i/o伺服器,儲存檔案系統的檔案資料,負責資料的儲存和檢索;計算節點則處理應用訪問,利用libpvfs這一客戶端的i/o庫,從底層訪問pvfs伺服器。乙個集群的節點可以提供其中的一種功能,也可以同時提供其中的兩種或者全部三種功能。
pvfs的執行機理如下:當開啟、關閉、建立或刪除乙個檔案時,計算節點上的乙個應用通過libpvfs直接與元資料伺服器通訊。在管理節點定位到乙個檔案之後,它向這個應用返回檔案的位置,然後使用libpvfs直接聯絡相應的i/o節點進行讀寫操作,不必與元資料伺服器通訊從而大大提高了訪問效率。
在對pvfs的分析和測試中,發現要成為乙個真正的商用系統,pvfs還存在缺陷,比如:pvfs中應用系統socket相互通訊,應用tcp/ip通訊協議,每次通訊需要核心嵌入,進行記憶體拷貝,cpu的負載比較大,影響系統的執行效率;pvfs本身具備良好的可擴充套件性,但是其動態配置的能力不強,如果要擴充套件乙個i/o節點,就需要停止服務,並且不能做到空間的合理利用等。
浪潮並行檔案系統的特徵
針對以上缺陷,浪潮儲存集中研發力量,在pvfs的基礎上進行了大量改進工作,使得改進後的並行檔案系統在效能、可用性、可擴充套件性、資料安全性方面有了大幅提高。
在該並行檔案系統中,元資料資訊採用分布儲存和管理的方式,消除了pvfs中元資料集中儲存和管理而導致的訪問瓶頸,提高了元資料資訊的可用性,同時保證檔案系統向使用者提供統一的命名空間和目錄體系。在改進後的並行檔案系統中,採用客戶端快取技術,大大提高系統的檔案訪問效率,降低網路流量,減少由於磁碟訪問和網路傳輸帶來的時延。此外,還提供可訂製的高可用機制,使用者可以根據其可用性需求和讀寫模式選擇相應的可用性級別和可用性策略。在改進後的並行檔案系統中,加入了訪問控制機制,可以避免一些非授權使用者對特定資料進行非法訪問,以確保資料的安全性。在並行檔案系統的設計方面,提供友好的系統管理介面;考慮到unix在高階的廣泛應用,並行檔案系統的介面設計和語義設計完全符合posix標準,同時與現在被廣泛使用的軟硬體標準相相容。
基於Linux C C 的網路爬蟲系統
網路爬蟲概念 是乙個軟體機械人,是可控的,可以按照一定的規則從網際網路上抓取我們所需的資源。目前比較出名的開源爬蟲有labin nutch neritrix,詳見 爬蟲流程 分為配置檔案處理模組 url維護模組和任務排程模組。配置檔案模組 是以檔案形式儲存程式執行時必要的引數,減少輸入時的繁瑣過程。...
基於Hadoop實現通用的並行任務處理
利用 hadoop 雲技術框架實現通用的並行任務處理功能,將原本只是單機程式改造成最終執行在 hadoop 雲平台裡。l 優點 1.分布並行執行 基於 mapreduce 及dfs 分布式檔案系統 實現了分布並行執行,可實現乙個 nosplitinputformat 類用於支援單個 map任務執行。...
基於網路的資訊系統基本結構描述
包括網路執行環境,網路系統,網路作業系統,以及基於網路作業系統的網路資料庫管理系統,網路軟體開發工具與網路應用系統,還包括保證系統安全的網路安全系統和保證其正常執行的網路管理系統 指為了網路系統安全,可靠與正常執行所需的基本設施和裝置條件,主要包括機房和電源兩部分 機房 機房用於放置交換機,核心路由...