澄清大資料儲存 使用者篇

2021-09-04 21:42:00 字數 2578 閱讀 4764

尋求容量、可靠性和速度的平衡

對非結構化資料進行儲存,除了考慮易用性、效能和安全因素以外,還要考慮與智慧型挖掘相關技術相結合。

大資料要求使用者不僅要對傳統商業智慧型軟體進行改造,還要對企業已有的業務系統基礎架構進行改造。

大資料面臨的最大挑戰是大規模、實時的關聯性分析。對於儲存來說,高吞吐、低延遲的要求會越來越高,記憶體、快閃儲存器的重要性也會越來越高。

中國的大資料應用已經起步。記者採訪了金融、網際網路、教育、製造等行業的一些敢於「吃螃蟹」的使用者。

精準營銷效果佳

大資料最先從網際網路行業興起,網際網路企業在大資料應用方面的一些成功經驗值得其他行業借鑑。以攜程旅行網(ctrip)為例,它的大資料應用目前正處於快速發展階段,已經在很多方面進行了有益嘗試,包括細化**平台的流程,優化業務運營,支援業務成長的決策,解決部分傳統方法難以解決的具體問題。攜程旅行網高階副總裁、研發中心總經理葉亞明(eric ye)給記者舉了兩個例子:在飯店推薦和航班查詢方面,攜程就利用其資料精細化工具來計算業務的投資回報率(roi);攜程還通過機器學習的方法識別使用者,進一步改善針對使用者的推薦結果,解決「查詢不到匹配酒店」等難題。

利用大資料為企業決策提供支援或者實現精準營銷是企業中常見的大資料應用。東方航空公司就是一例,它開展大資料研究和應用已經有很長時間,並且採購了大資料一體機專門解決大資料的相關問題。目前,東方航空公司的大資料應用主要集中在營銷業務領域,包括渠道分析、航線分析、航班後期走勢分析、航線上客速度分析等。在東方航空公司,大資料處理和分析的益處顯而易見,它能提供更準確、更實用、更全面的資料分析和展現,形成統一的營銷資料分析門戶,更好地為東方航空公司營銷的各個環節提供決策支援,使精準營銷成為可能。

追求高價效比

為滿足大資料的應用需求,儲存平台究竟應該如何搭建呢?不同行業的使用者針對不同應用會進行不同的搭配。攜程已經建立了乙個具有一定規模的hadoop集群,其大資料應用就基於此集群。「為這個集群選擇相應的儲存方案時,我們綜合考慮了i/o吞吐效能、價效比、計算密集型還是儲存密集應用型等諸多因素。」葉亞明介紹說,「目前,我們標準的儲存配置是基於sata硬碟,配合jbod、資料傾斜調整、機架感知等可靠技術的應用,實現儲存和計算的優化。面對一些特殊應用,我們還會採用不同的記憶體儲存,如hbase節點中的記憶體比例會稍高,而hive/pig等節點中的記憶體比例則有所調整。」

東方航空公司對於大資料儲存的要求很明確,不僅要效能卓越,可擴充套件性強,還要實現安全保護,能夠實時響應,實現負載均衡等。東方航空公司下一步將考慮引入對非結構化資料的處理。針對非結構化資料的儲存,東方航空公司除了會考慮易用性、效能和安全性等因素以外,對於與智慧型挖掘相關的技術也十分關注。東方航空公司選擇大資料解決方案秉承的原則是:業務驅動,資訊科技引領,追求更高價效比。

目前,南華**股份****在大資料方面的應用還不夠深入,但資料的採集和積累是其一直堅持在做的重要工作。南華**積累的資料主要包括兩年以上的全市場逐筆tick**資料、近10年的主力合約分鐘資料、全部客戶的交易和結算資料、詳細的網路訪問日誌等。「我們的大資料應用主要集中在針對高階客戶的資料服務和有針對性的交易指導方面。接下來,我們還會依託實時交易資料分析,向客戶推送有針對性的諮詢服務等。」南華**股份****總經理助理顧松表示。

談到大資料對儲存的需求,顧松表示,核心需求主要體現在容量、可靠性和速度三方面。針對不同的應用,上述三個需求重要性的排序也會有所變化:比如在逐筆tick**資料處理中,重要性的排序是可靠性、容量、速度;在網路訪問日誌中,重要性的排序為容量、速度、可靠性。顧松特意強調了儲存可擴充套件的重要性:「當前,我們為每個應用都估算了具有一定冗餘的儲存容量,所以可擴充套件性的重要性並沒有凸顯出來。不過隨著應用的發展和後續資料遷移、備份需求的增加,儲存的可擴充套件性和重複資料刪除等技術就會顯得更加重要和必要。」

長安汽車股份****副總裁馬軍最想找的是懂演算法的人,希望依靠更先進的演算法實現資料的自動抽取,從而提公升資料採集和分析的效率。他認為,公司現有的儲存平台不會成為瓶頸。

魯永泉也表示,其動漫雲平台對儲存沒有特別的要求:「大資料意味著大儲存,而能夠滿足大資料需求的儲存,比如hdfs等的設計理念不再強調單個儲存的可靠性,而是強調利用建立副本等軟體的方式來確保資料的安全。至於效能方面,大型分布式系統的單個儲存節點的效能高一點固然很好,但其實對整體效能的影響不大,反而需要在網路優化方面多下些功夫。」

容量、效能同步擴

華為跨界到it領域,其重要的資本就是在網路領域多年積累的自主研發能力和過硬的產品品質,而華為最擅長的無阻塞交換網路技術也讓華為在伺服器、儲存和大資料解決方案的開發中顯得游刃有餘且特色鮮明。華為oceanstor 9000大資料儲存系統在標準效能評估機構spec的specsfs2008基準測試中再次重新整理記錄,其效能領先友商產品3倍多。參與測試的華為oceanstor 9000的配置為100個節點,在nfs網路共享協議環境下的效能達到5030264 iops,位居業界第一。同時,oceanstor 9000的橫向擴充套件架構保證了系統的線性擴充套件能力,在不中斷業務的情況下,每增加乙個新節點,容量和效能即可線性增長。

「大資料最顯著的特徵是在海量資料中快速地把資料變成資訊。因此,資料的快速讀取和安全儲存是大資料儲存的關鍵指標。」國家測繪局衛星測繪應用中心副主任孫承志表示,「衛星測繪技術不斷發展和多型別測繪衛星的在軌執行,使得資料儲存量快速增加。為了更有效地解決大資料儲存問題,我們希望未來與華為開展更多的合作。」

澄清大資料儲存 系統整合商篇

大資料考驗整合能力 大資料在帶來新的商機和使用者的同時,也帶來了諸多挑戰。大資料儲存主要考驗的是技術整合能力和資源整合能力。大資料是一項持久的工程,也是乙個不斷迭代的過程,不能一蹴而就。業務集中在雲計算 大資料和業務連續性方面的柏科資料總經理林柏喬給記者舉了乙個例子,某客戶需要做大量的日誌分析,每天...

澄清大資料儲存 系統整合商篇

大資料考驗整合能力 大資料在帶來新的商機和使用者的同時,也帶來了諸多挑戰。大資料儲存主要考驗的是技術整合能力和資源整合能力。大資料是一項持久的工程,也是乙個不斷迭代的過程,不能一蹴而就。業務集中在雲計算 大資料和業務連續性方面的柏科資料總經理林柏喬給記者舉了乙個例子,某客戶需要做大量的日誌分析,每天...

大資料儲存

主流資料庫 1 mysql 以前是sun公司的產品,後被甲骨文公司收購,開源 2 oracel 成本較高,100w左右 3 db2 成本較高,100w左右 4 nosql 非關係性資料庫,基本都是key value結構 很多門戶 都使用mysql,例如 雅虎,資料庫的主從備份,是處於負載均衡範疇。資...