文章講的是hpc與資料分析融合將企業帶入hpda時代,
許多企業現在需要將高效能計算與資料分析相結合的解決方案。這種融合趨勢推動了hpda
(high performance data analytics)
的快速發展。
本文作者由戴爾emc adnan khaleel,首發於cio.com。
高效能計算(hpc)和大資料的融合已經進行了多年。雖然以前hpc和大資料在不同的環境中發展,但現在正走向融合。使用hpc應用程式的人通常使用大資料,而處理大資料的人通常需要hpc系統的處理能力。這種融合將企業帶入了hpda的時代。
▲(**於網路)
讓我們退一步。對於企業來說,資料的傳輸速度遠遠快於任何人的預期。無論是來自物聯網,網頁,商業交易或其他**,湧入企業資料中心的資料量超過了當前的儲存容量。這種大量的資料創造了一類新的資料整合,資料處理和資料管理挑戰。企業不能只是讓資料堆積。他們現在需要對要儲存的資料,要分析的資料以及要丟棄的資料做出慎重的決定。
最重要的是,企業需要找到方法將大量的資料變成有意義的洞察力。此過程越來越需要hpc功能,使應用程式盡可能快地執行。在許多情況下,企業需要實時生成洞察力。如需要優化遠端裝置的效能,更快地響應客戶的需求,抑或是組織潛在的欺詐**易。
讓我們舉個例子,許多企業受到來自互聯裝置(物聯網)領域不斷增長的資料浪潮的打擊。為了利用這些資料,無論是實時還是一段時間,企業都需要運用複雜的機器學習和深度學習技術,這些技術需要與大資料平台和資料分析工具配合使用的hpc系統。
借助hpda,企業使用hpc技術來分析大資料,以便獲得快速洞察,實時結果和**分析。一項研究發現,67%的hpc使用者已經在使用hpda,而不是傳統的hpc。
雖然hpda在傳統研究驅動的hpc應用中是需要的,但它在企業環境中變得必不可少。根據行業的不同,企業可能需要利用以資料為中心的hpc平台,用於傳統的hpc應用程式,如基因學,金融建模和訊號處理,以及新興的hpda應用程式,如個性化醫療,欺詐檢測和機器學習。
新工具和技術的興起
對於需要hpda的企業,在技術方面有乙個好訊息:將hpc與資料分析合併的工具和技術正在快速成熟。更好的是,hpc和大資料平台以減少在hpc和儲存環境之間來回移動資料的需要方式進行融合。此融合可幫助企業避免不同系統附帶的大量開銷和延遲。
今天,企業可以選擇快速增長的工具和技術,如流分析,圖形分析和在hpc環境中的探索性資料分析。讓我們簡單看看這些工具。
流分析提供了新的演算法和方法,幫助企業快速分析高頻寬,高吞吐量的流資料。這些進步支援新興圖形模式,資料融合和壓縮以及大規模網路分析的解決方案。
圖形分析技術支援圖形建模,視覺化和評估,以了解大型,複雜的網路。具體應用包括語義資料分析,大資料視覺化,圖形分析研究的資料集,基於活動的分析,大圖資料工具的效能分析和防逃避異常檢測。
探索性資料分析提供了探索和分析大量流資料來源的機制,以獲得新的見解和決策。應用包括探索性圖分析,地理啟發式並行**和網路分析資料集。
hpda在行動:案例研究
讓我們來考慮一些現實生活中的hpda例項。這些例子顯示了公司如何利用高效能計算和大資料技術的融合。
為了幫助抵抗癌症和其他疾病,tgen需要極其可擴充套件,可靠和可用的hpc節點來開發個性化的**。為了滿足這一需求,tgen優化了其基礎設施,利用戴爾emc poweredge刀片擴充套件其現有的戴爾emc hpc集群。該系統結合了強大的大資料和分析工具,利用戴爾emc hadoop平台和statistica軟體。提高的效能有助於tgen加速結果,使研究人員能夠將**擴充套件到更多的患者。
另乙個戴爾emc客戶sensus需要增加其資料集大小,以便能夠更輕鬆地檢視儀表感測器效能問題。為了滿足這一需求,該公司實施了乙個基於hadoop平台的資料集群和資料湖,以及來自dell emc和intel的技術,整合了製造,測試和其他資料流。有了這個統一的平台,sensus可以快速分析1700萬個氣體,電表和水表感測器的資料,並主動識別裝置問題,幫助**和防止未來裝置故障。
使用hpda啟用主動維護
在物聯網方面,hpda技術能夠對資產進行**性維護,以幫助防止裝置故障,延長機器壽命,並幫助企業獲得更好的資產回報。這些技術超越了狀態監測,使條件理解。就其自身而言,狀態監視提供了行動的時間,但是當資料被動態地提供給特定於裝置的**模型時,可以實現條件理解。這意味著使用者將有時間對維護事件採取行動,並清楚地了解他們需要採取的行動。
對於新的物聯網企業,面臨的挑戰眾多,涵蓋硬體和軟體。例如,他們需要:
確定什麼是最佳感測器網路架構和邊緣節點的最佳位置
確定早期分析需要什麼資料,哪些資料可以丟棄,以及資料中心深度分析需要哪些資料
識別啟用資料分析和過濾的邊緣節點上所需的軟體堆疊
管理整個端到端流程,記住時間到洞察(如果失敗已經發生,資料有什麼好處?)
推進部署,包括資料移動,資料安全和合規性的行業最佳實踐
保持成本可管理
這就是專業知識非常方便的地方。考慮到這一想法,戴爾emc與software ag和kepware合作,為主動維護生成端到端解決方案。它提供了完整的硬體,軟體堆疊,可輕鬆實現物聯網感測器的管理,生成的資料以及實時分析資料,從而最終簡化基於iot的基礎設施維護解決方案的部署。
R與資料分析
r的基本賦值操作 x c 1 100 把1.100個整數向量賦值到x sample x,20 從100個數中隨機不放回地抽取20個值作為樣本 x 1 10 提取1 10號數字 y c 1,3,7,3,4,2 x y 以y為下標的z的元素值 xz setdiff x,z 找出兩個變數中的差異變數 so...
資料分析與挖掘
學習 實戰記錄 實戰專案1 智取樂食 從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提供 性決策支援的方法 工具和過程,就是資料探勘。資料探勘的基本任務包括利用分類 聚類分析 關聯規則 時序模式 偏差檢驗 智慧型推薦等方法...
資料分析與挖掘
1 概述 1.1 使用者研究縱覽 使用者研究可以從定性分析和定量分析兩個不同的維度展開 定性分析是從小規模的資料樣本中發現新事物的方法,主要應用於使用者體驗調查 定量分析是用大資料量的樣本來測試和證明某些事情的方法,主要應用於使用者行為資料分析。1.2 資料分析與挖掘流程規範 資料分析與挖掘型系統建...