洞窺大資料 DTCC 2015儲存專場先睹為快

2021-10-06 13:09:43 字數 2651 閱讀 6588

演講主題:《京東檔案系統:從2013到2015》

擁有一億使用者、營業規模達數百億元的大型網路零售企業京東(jd.com),在網路零售市場深耕近十年之後,也正式邁入了pb級資料管理的新時代。對企 業而言,pb級(1pb=1024tb)的資料管理算得上是衡量其資料規模和管理能力的乙個重要標尺。目前,全球pb級資料管理俱樂部已經擁有 facebook、**等重要成員,能夠躋身其中對京東而言是榮譽,也意味著挑戰。

即使是非**日,京東的訂單數字也能達到數億,幾十億商品及其縮圖的儲存給京東帶來了極大的挑戰。這些檔案基本上都是kb 級別的,但傳統的關係型資料庫並不擅長處理海量小檔案,而且**昂貴,沒法按需擴容,只能定期刪除資料。開源儲存系統雖然便宜,但難以選型、定製和維護。 此前,京東一直是採用hdfs作為資料儲存子系統,但是專為大檔案而設計的hdfs顯然無法有效處理大量小檔案,同時還對hadoop的擴充套件性和效能造成 了不良影響。

針對電商業務中海量小檔案、大檔案等資料分布式儲存與管理的實際需求,京東從2023年7月便開始著手自主研發分布式檔案系統jfs(即jingdong filesystem),以及分布式的快取與高速鍵值儲存服務jimdb,目前已經取得了階段性的成果。

演講內容預告:

屆時,京東**雲平台系統技術部高階架構師——桂創華將出席「儲存與檔案系統」專場,與大家分享介紹京東的技術團隊是如何研發逐步完善其自主研發的分布 式檔案系統jfs (jingdong file system)。桂創華曾先後參與京東海量小檔案、物件儲存、新系統的研發,主導了京東彈性塊儲存,jfs元資料表結構儲存的設計和研發。

亮點2:快閃儲存器與檔案系統之間的「危險關係」

演講主題: 《快閃儲存器儲存特性以及檔案系統應用》

蘭博基尼跑車和蘋果ipod想必大家都耳熟能詳,但豪車車載娛樂系統和ipod儲存空間背後的晶元廠商就鮮少有人知道了。greenliant——這家 名不見經傳的儲存晶元提供商其實在快閃儲存器領域早已耕耘多年。其前身是全球最大的快閃儲存器**商sst,從2023年起,僅向ipod ***所提供的nand快閃儲存器控制器便高達2700萬套。作為一家飛速成長的儲存新貴,擁有超過20年固態儲存及半導體研發經驗無疑是greenliant 公司的一大優勢。

計算機上通行的大部份檔案系統,都是針對碟盤儲存裝置設計的,應用到快閃儲存器上並不適合。一般的檔案系統,可以通過快閃儲存器轉換層(flash translation layer,ftl)寫入快閃儲存器,但是它的缺點是寫入的效率較差。因此,設計快閃儲存器檔案系統仍然是有必要的。

快閃儲存器檔案系統(英語:flash file system),是一種為了在快閃儲存器裝置上儲存資料而設計的檔案系統,如jffs2與yaffs等。隨著移動裝置的日漸增加,快閃儲存器的儲存能力增加以及**下降,這型別的檔案系統已變得越來越普遍。

設計快閃儲存器檔案系統的基本概念是,當儲存資料需要更新時,檔案系統將會把新的複本寫入乙個新的快閃儲存器區塊,將檔案指標重新指向,並在閒置時期將原有的區塊刪除。例如jffs2與yaffs,都是這樣設計。

演講內容預告:

在本次大會上,greenliant業務發展副總裁李炫輝將主要向大家介紹,快閃儲存器儲存的特性與傳統磁碟的差異,快閃儲存器儲存的效能優勢和永續性劣勢以及解決 機制。另外,還將剖析當前檔案系統設計與快閃儲存器結合時存在的問題,同時對快閃儲存器在不同的檔案系統中的應用模式和特點進行初步分析。

亮點3:論云硬碟如何實現資料庫高可用

演講主題:《網易雲硬碟系統介紹及實戰》

演講內容預告:

儲存、傳輸、處理是計算機系統的三大主題,儲存作為其中的基石,其重要性不言而喻。傳統的企業級儲存對於網際網路應用來說,其擴充套件性、成本都是乙個痛點。隨著雲計算技術的發展,虛擬化的普及,在虛擬化的基礎上使用塊儲存服務已經是大勢所趨。

網易雲硬碟是在傳統塊儲存技術的基礎上,基於廉價裝置構建可擴充套件、高可靠、高可用、有qos保證、易運維的儲存系統。公司的資料庫雲服務(rds)及雲搜尋(ncs)都建構在雲硬碟之上。

網易杭州研究院高階開發工程師吳東,現從事網易分布式塊儲存服務的開發與維護工作,專注於底層儲存系統與分布式系統技術。在大會第三天(4月18日), 吳東將帶領大家深入了解網易雲硬碟這款產品,並就如何依賴雲硬碟實現資料庫高可用高可靠等技術主題展開討論,敬請期待!

亮點4: **ceph資料一致性機制

演講主題:《ceph資料一致性機制**》

演講內容預告:

紅樹林資訊科技****聯合創始人兼cto 滕召智,曾負責桌面linux發行版及家用裝置linux應用、voip及伺服器系統產品,ubuntu builder/pmp的主要開發,給多家遊戲、網際網路、移動應用企業兼任技術顧問或架構師。曾參與linux標準工作組標準制定工作,目前多活躍 於北京、上海等地開源社群,是蘇州自由軟體使用者組發起人之一,息壤開源、trystack.cn等社群的參與者。

他的演講內容將集中於下面四個方面:

1.需求背景:雲儲存對資料一致性的需求

2.crush演算法與一致性hash:對兩種演算法進行簡單介紹,以及其優劣勢

3.ceph如何應對常見故障,scrub機制:對故障的監測和恢復的原理

4.ceph與openstack結合時對一致性的注意事項:分享在這個過程中,對一致性的關注點以及操作技巧

dtcc2015精彩仍在繼續,詳情請檢視大會官網:

大資料處理初窺

當處理大規模資料時,例如進行全文搜尋,近似文件搜尋,資料探勘等工作時,rdbms往往不能滿足我們的需求了。那麼我們應該怎麼做呢?一種解決方案是 利用批處理從rdbms中取出資料,建立索引伺服器再讓web應用程式通過rpc remote procedure call 或者web api http js...

大資料應用建設開源工具 update2019 07

hera專案位址 hera 分布式任務排程系統 大資料任務排程系統 任務排程 資料部門專用 hera分布式任務排程系統是根據前阿里開源排程系統 zeus 進行的二次開發,其中zeus大概在2014年開源,開源後卻並未進行維護。我公司 二維火 2015年引進了zeus任務排程系統,一直使用至今年11月...

關於MATLAB處理大資料座標檔案201761

前幾天備戰考試,接下來的日子將會繼續攻克大資料比賽 雖然停止了一段時間沒有提交資料,但是這幾天的收穫還是有的,對python 隨機森林了解的更了解了 隨機森林是由多課決策樹組成 當然這個雖然我們初學者都知道,但是我確定沒有現在認識的深刻 多棵決策樹經過資料訓練後,經過投票方式對測試資料進行判斷 那麼...