克服大資料集群的挑戰
資料儲存曾經是大資料的最大挑戰。由於雲計算基礎設施的進步,儲存資料不再是關鍵問題。如今,資料科學家
所面臨的最大問題是資料收集。
集群化使得大資料分析更容易。然而,集群也給資料工程師帶來了必須解決的問題。
什麼是資料集群?
資料集群的概念可追溯到至少20年前。美國俄亥俄州立大學電腦科學和工程系教授anil kumar
jain博士在他的***之一中對這一術語進行了很好的描述:
「集群是模式(觀察,資料項或特徵向量)到組(集群)的無監督分類。集群問題在許多領域和許多學科的研究人員那裡都得到了解決;這反映了其廣泛的吸引力和實用性,作為探索性資料分析的步驟之一。然而,集群的組合是乙個困難的問題,不同社群的假設和背景差異使得有用的通用概念和方法的傳遞變得緩慢。「
換句話說,資料工程師使用集群來識別原始資料中的趨勢和模式。他們需要將其分解成群集。
資料集群的主要挑戰是什麼?
自從大資料的概念誕生以來,集群一直是乙個挑戰。這個問題源於資料量和處理限制。拉巴特大學列出了大資料集群的首要關注點。
(1) 數量
大多數網路上儲存的資料量呈指數級增長。隨著資料量的增加,提取資料變得更加困難。備份資料也可能放大這些問題。
(2) 速度
資料生成的速度是資料科學家面臨的另乙個集群挑戰。這個問題不僅限於網路上的資料量。當網路以前所未有的速度生成新資料時,他們將很難實時地提取它。
造成的問題是雙重的:
新的模式將不斷地從已知的資料集湧現。資料分析師可能認為他們很難從資料中得出準確的結論,而事實上,他們的分析更能代表他們所建模的問題。他們可能不知道什麼時候分析他們現有的資料集,以及何時等待收集更多的資料。
如果資料的建立速度比提取的它速度快,那麼當他們試圖收集資料時,趨勢可能會發生變化。
隨著網路使用物聯網(iot)從更多的裝置收集資料,他們能夠以更快的速度收集資料,問題將會越來越嚴重。
(3) 品種
集群資料儲存在許多不同的表單中,這使得很難進行精確的比較。有些資料以結構化格式儲存,而其他資料集可能是完全非結構化的。
如何解決這些問題?
有各種各樣的工具和策略可以簡化抽取和分析集群資料的過程。
(1) k均值集群
k均值集群方法是一種基於分組的解決方案,需要網路將物件分配給乙個集群。這消除了單個物件可能通過出現在多個資料集中而偏離分析的擔心。
(2) 無監督分類演算法
無監督分類演算法是基於預定義引數合併非常大的資料集的資料探勘工具。這是處理日益增長的資料量的乙個很好的解決方案,特別是使用強大的hadoop工具。
(3) coala
coala使用例項級約束來避免類似分組引起的問題。不需要滿足100%的約束條件。
(4) 降低維度
每個資料有兩個維度:
變數例項
隨著變數數量的增加,總資料量呈指數增長。可以通過使用降低維度策略(也就是所謂的降維變換)來緩解問題。
確定資料集群挑戰的新解決方案
資料集群是解決儲存大量結構化和非結構化資料所帶來的許多問題的解決方案。然而,這不是乙個可靠的解決方案,因為資料仍然需要盡可能快速準確地被訪問和分析。幸運的是,有一些很好的工具和方法可以簡化流程。
Hadoop分布式計算 克服大資料挑戰的曙光
近來大資料的議題竄起,而分布式計算是大資料的關鍵技術。當分布式計算發展出巨量資料平台,對企業而言可以不再依賴 高昂的大型專屬裝置,而可以透過自建大量伺服器群集來解決。大資料大概是繼雲端運算之後,最熱門的科技名詞了。一些科技大廠不約而同,紛紛打出大資料口號,情況就像當年的雲端運算熱潮一樣。這到底是怎麼...
大資料 挑戰 機會 大資料視覺化面臨哪些挑戰
資料視覺化在大資料場景下面臨諸多新的挑戰,包括資料規模 資料融合 圖表繪製效率 圖表表達能力 系統可擴充套件性 快速構建能力 資料分析與資料互動等。資料規模 大資料規模大 價值密度降低,受限於螢幕空間,所能顯示的資料量有限。因此為了有效顯示使用者所關注的資料和特徵,需要採用有效的資料壓縮方法。目前已...
OLAP在大資料時代的挑戰
轉行做資料相關的工作有近兩年時間,除了具體技術,還有許多其它思考。在涉及具體的技術前,先想一想為什麼需要olap這樣的系統,它有什麼價值或者說在公司或部門這是不可取代的麼?可以帶來哪些價值,是直接變現還是間接變現。如果不能回答或回答不了,那麼就是乙個很大的問題,這其實意味著資料的質量存在問題。沒有質...