大資料和物聯網專案給it基礎架構帶來了前所未有的壓力。
internet of things(iot) 和大資料應用已經給網路和儲存架構帶來了壓力,更不用說這還需要it專家使用不同的技能和工具來管理這些新的部署了。
雖然執行起來很有挑戰性,但是也有一些為it團隊而設的指導方針來幫助他們託管iot和大資料。這得從審查基礎架構中大規模、資料密集型的專案需求開始。
更多的處理能力
一旦專案進入到具體的實施階段,it組織連同它的硬體、軟體和服務**商很可能需要去定義合適的系統架構和作業系統,每個系統處理器的數量以及系統的數量——不管是物理的、虛擬的還是基於雲的——這需要一些主動性。
大資料專案大部分是基於windows或者linux作業系統,架構在業界標準的x86平台伺服器上的。但在一些情況下,也有一些基於大型機或者單一廠商系統架構和作業系統的實用的工具。大多數情況下,it團隊會將業界標準的伺服器使用scale-out架構做成集群,以支援需要大量計算、記憶體、網路和儲存的負載。
iot專案也趨向於包含基於單一廠家的後端系統以及大型機。
要最大化可使用的處理能力,同時減少在硬體上的總體投資,需要很好地對系統、集群和其他元件進行配置。這需要很明白企業的目標以及深入了解所選的大資料工具和nosql資料庫。同樣的,對於選擇與繁雜的不同智慧型手機、平板、汽車和從未如此擴張的其他智慧型裝置進行通訊的工具,也需要有一定的了解。
錯誤配置的伺服器集群或者其他基礎架構的重大錯失(甚至選擇了錯誤的工具)都可能成為專案操作的阻礙並且導致專案失敗。
有一些後端資料分析和報告工具在乙個大集群系統裡面執行,有一些則通過其他小的集群來支援:一些小集群負責儲存分析需要用的原始資料,有一些小集群負責提供將原始資料處理成有用資訊的工具,另一些小集群可能被用來支援將有用的資訊轉換為適合的格式(**、圖形或者其他形式),提供給分析師或者資料科學家。
iot專案還需要增加響應客戶裝置,提供需求的資訊、指導或幫助的功能。企業需要熟悉這些工具的專家,以及對如何使用這些工具有很全面的了解。
為自己信任的顧問和**商投入時間,學習對選擇的這些工具和方法進行技術支援需要什麼。
對於記憶體、儲存和網路的關注
僅僅增加更多的系統、記憶體和儲存並不總能提高iot和大資料環境的綜合性能。不同的方法和工具需要不一樣的系統記憶體和處理能力。
每一種方法和所關聯的工具都有自己的限制。建設iot和/或大資料平台的it規劃師需要對每一種考慮在內的工具所需要的資源進行調研,同時需要知道在資源充足的情況下他們會使用哪一種工具。
如果企業安裝了比所選工具所需更多的記憶體,那麼這僅僅會增加能源消耗和熱量。非但不會給整體效能帶來任何幫助,反而會給資料中心能源和冷卻系統帶來不需要的壓力。
iot和大資料平台另乙個引數是儲存的效能和容量。就像處理能力和記憶體容量一樣,儲存裝置的選擇、儲存的專用能力和儲存的聯網方式都能對大資料產品的優化效能有幫助。在iot技術的例子裡,響應速度的快慢將直接影響到客戶是否喜歡這個企業(產品)。
就和記憶體和計算元件一樣,儲存的配置也必須滿足所選工具和方法的需求。不要指望簡單通過新增更多儲存,選擇更快的裝置或者公升級儲存網路來得到效果。即使儲存效能增加了,但是也可能被網路瓶頸帶來的影響抵消。
有一些大資料工具使用額外的記憶體能力作為資料儲存的一部分,創造了記憶體裡的資料庫。這種方法能加速分析和報告的處理。但這是一種需要權衡的方法,因為如果系統沒有被可依賴的電力保護著,一旦失去電力則資料也會丟失。
不要被捲入任何一種儲存或者儲存網路的炒作中。分析師會指出寄存於記憶體的資料庫或者快閃儲存器儲存並不會對所有情況都適合。
有一些儲存虛擬化軟體廠家,例如datacore software注意到了底層作業系統每一次只能處理乙個單一的i/o請求。它的方式是通過增加軟體來讓作業系統能同一時間同步處理多個請求。
顯而易見的是不充分提供(underprovisioned)或者設計失敗的儲存系統會給大資料或者iot系統帶來效果的降低。
網路架構對於任何分布式或者集群計算工具來說都是至關重要的。它的容量、延遲和效能可以促進或阻礙這類技術。和處理器、記憶體和儲存一樣,網路架構也需要細心選擇。
當大資料工具需要一些資料的時候,如果網路沒有足夠的容量、響應慢或者對於不同型別i/o請求有偏向,那麼效能就會變得很差。同樣的事情對處理iot系統裡面智慧型裝置發出的小型、突發式的請求處理上卻並非如此。因此要對兩種型別的請求進行平衡是一種挑戰。
對於其他的元件,需要對網路媒介特性進行調研,例如gigabit乙太網或fibre channel,在購買網路之前進行成本/效益分析。
我曾經看到過乙個專案,其目標是捕獲百萬級別的小型移動裝置資訊,並且進行分析——這是乙個早期的iot專案。這個公司發現它的網路處理在負載的時候不夠快,因為網路設計之初是為了管理大型資料傳輸而非百萬個小型資料請求的。
大資料 專案流程
1.資料的預處理階段 2.資料的入庫操作階段 3.資料的分析階段 4.資料儲存到資料庫階段 5.資料的查詢顯示階段 reduce driver create table 表名 videoid string,uploader string,age int row format delimited fi...
大資料專案3
gmv 今天提交訂單的金額總和,不管是否支付 全站pv 頁面瀏覽量大砍一次就是乙個pv再重新整理一次又是乙個pv 全站uv 去重的訪客總和set mapreduce.framework.name local 本地 set mapreduce.framework.name yarn yarn set ...
離線大資料專案流程
mapreduce 資料清洗 hive textfile格式 create table 表名 a string b string row format delimited fields terminated by 指定分隔符 stored as textfile load data local in...