當前,全國各地都在建設大資料中心,有些偏僻的山區都建立了容量達2pb(拍位元組)以上的資料處理中心,許多城市公安部門要求儲存3個月以上的高畫質監控錄影。其背後的問題是,這些系統的成本都非常高。
資料探勘的價值是用成本換來的,不能不計成本、盲目建設大資料系統。什麼資料需要儲存、要儲存多長時間,應當根據可能的價值和所需的成本來決定。大資料系統技術還在研究之中,美國的e級超級計算機系統要求能耗降低到原來的千分之一,計畫到2023年才能研製出來。因此,用現在的技術構建的巨型系統,能耗極高。
一味追求資料規模不僅會造成浪費,而且效果未必很好。多個**「小資料」的整合融合可能挖掘出單一**大資料得不到的「大價值」。因此,應在資料的融合技術上多下功夫,重視資料的開放與共享。所謂資料規模大與應用領域有密切關係,有些領域幾個pb的資料未必算大,有些領域可能幾十tb(太位元組)已經是很大的規模。
此外,大資料主要難點不是資料量大,而是資料型別多樣、要求及時回應和原始資料真假難辨。現有資料庫軟體無力應對非結構化資料,所以要重視資料融合、資料格式的標準化和資料的互操作。資料質量不高是大資料的特點之一,但盡可能提高原始資料的質量仍然值得重視。比如,腦科學研究的最大問題就是採集的資料可信度差,基於可信度很差的資料難以分析出有價值的結果。
實際上,發展資訊科技的目的是為人服務,檢驗技術的唯一標準是應用。我國發展大資料產業一定要堅持「應用為先」的發展戰略,堅持應用牽引的技術路線。所謂技術有限、應用無限,各地發展雲計算和大資料,一定要通過政策和各種措施調動應用部門和創新企業的積極性,通過跨界的組合創新開拓新的應用,從應用中找出路。
目前流行的大資料定義是「當前技術無法處理的資料集合」,這種針對未知技術的定義強調大資料不同於資料庫等傳統技術能對付的小資料,有利於推動基礎研究、激勵探索新技術,但可能引導大家只重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業碰到的資料處理多數還是「小資料」問題。我們應重視實際碰到的問題,不管是大資料還是小資料。
統計學家們花了200多年,總結出認知資料過程中的種種陷阱,這些陷阱不會隨著資料量的增大而自動填平。大資料中有大量的小資料問題,大資料採集同樣會犯小資料採集一樣的統計偏差。google公司的流感**這兩年失靈,就是由於搜尋推薦等人為的干預造成統計誤差。
因此,我們不要攀比大資料系統的規模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大資料應用,因地制宜發展大資料。發展大資料與實現資訊化的策略一樣:目標要遠大、起步要精準、發展要快速。
大資料未來發展
許多對大資料有需求的公司並不一定具備強大的研發團隊,在大資料處理過程中往往遭遇眾多挑戰。那麼,在面臨這些挑戰時,開發者最迫切需要的是什麼?為了解決公司中的實際問題,39.28 的人希望擁有更犀利和通用的計算框架 37.88 的人希望能擁有更好的資料探勘演算法 21.59 的人則對保障性更高的運維有了...
大資料發展歷程
任何技術的出現,在前期都是理論先行,但此時沒有應用場景,不會大規模的推開,那技術都得不到深度的發展。任何技術深度的發展,都是在有了應用場景,降低了門檻,才會真正的發展起來。大資料技術的發展也是這樣的歷程 最開始是由於像谷歌,雅虎這樣的搜尋引擎,因為儲存的網頁數量巨大,才有了這樣的大資料的概念。所以大...
大資料發展歷程
整理自 oltp 增刪改 olap 查詢 二合一的系統,隨著資料量的增大開始分庫分表。之後大量資料的處理 min max g 不易操作。所有資料匯聚到乙個中心儲存,這個中心底層是 分布式 但向上暴露的介面是 單機 的。這極大程度的降低了資料傳輸 儲存 分析的難度。歷程 hadoop 2006 年出現...