san:金融電信級別,高成本的儲存方式,涉及到光纖和各類高階裝置,可靠性和效能都很高,除了貴和運維成本高,基本都是好處。
檔案儲存:nas,網路儲存,用於多主機共享資料。
物件儲存:跟自己開發的應用程式打交道,如網盤。
分布式鍵值系統:分布式鍵值系統用於儲存關係簡單的半結構化資料。典型的分布式鍵值系統有amazon dynamo,以及獲得廣泛應用和關注的物件儲存技術(object storage)也可以視為鍵值系統,其儲存和管理的是物件而不是資料塊。
hdfs(hadoop distributed file system)源於google在2023年10月份發表的gfs(google file system) **,它其實就是 gfs 的乙個轉殖版本。
開源 ceph是加州大學聖克魯茲分校的sage weil攻讀博士時開發的分布式檔案系統。由於ceph使用btrfs檔案系統,而btrfs檔案系統需要linux 2.6.34以上的核心才支援。
開源 lustre是源自linux和cluster的混成詞。最早在2023年,由皮特·布拉姆建立的集群檔案系統公司開始研發,於2023年發布lustre 1.0。採用gnu gplv2開原始碼授權。 開源
適合儲存小檔案、的分布檔案系統有:
mogilefs(
moosefs(
tfs(
gridfs(
大資料的儲存方式 .
三種最典型的大資料儲存技術路線 .
各種分布式檔案系統簡介及適用場景 .
大資料比賽 綜述
雖然只參與了幾個小型的資料比賽,成績也十分慘淡,但還是有一些小小收穫記錄下來以便查閱。1 比賽流程 問題分析 樣本處理 特徵抽取 模型選擇 實現 調參測試 提交 當然,與軟體工程相同,比賽的過程也是迭代進行的,每次提交之後可能就要重新走一遍流程以發現改進點。以目前淺薄的經驗來看,最重要的步驟是特徵抽...
大資料儲存
主流資料庫 1 mysql 以前是sun公司的產品,後被甲骨文公司收購,開源 2 oracel 成本較高,100w左右 3 db2 成本較高,100w左右 4 nosql 非關係性資料庫,基本都是key value結構 很多門戶 都使用mysql,例如 雅虎,資料庫的主從備份,是處於負載均衡範疇。資...
讀文獻「大資料可視分析綜述」
大資料具有4v特徵,即 體量巨大 volume 型別繁多 variety 時效性高 velocity 以及價值高密度低 value 大資料分析的理論和方法研究可以從兩個維度展開 一是從機器或計算機的角度出發,強調機器的計算能力和人工智慧,以各種高效能處理演算法 智慧型搜尋與挖掘演算法等為主要研究內容...