阿里雲
emr(
elastic mapreduce
)是一項
web
服務,簡化了大資料處理,提供的大資料框架可以讓您輕鬆、高速、經濟、安全、穩定地處理大資料,滿足如日誌分析、資料倉儲、商業智慧型、機器學習、科學模擬等業務需求。
一. 最佳實踐
1. 混合使用包年及按需計費,節約成本
資料都存在熱、冷的差異。一般建議把冷資料存放在oss中,熱資料放在本地hdfs中。晚上00:00-06:00按需執行,執行完成後釋放集群,節約成本。晚上ecs水位低,比較容易申請到大集群。
2. 離線處理
-使用者行為分析
服務端會把這些資訊儲存在oss中,再啟動e-mapreduce中的hive指令碼分析這些資料,如:統計pv和uv,再把每個鏈結的訪問情況儲存在rds中,最後通過報表系統展示。
4. 離線處理-推薦(機器學習)
5. 實時處理-監控報警
統計資料從多個維度來展現當前服務質量,例如各種請求狀態碼佔比,請求介面佔比,每種請求的狀態碼佔比,請求延時分布,每種請求的時延佔比。最終結果可以呈現給運維人員或者開發人員,用來進一步保證服務質量和優化服務效能。如果出現一些異常情況,則報警給運維人員或者開發人員。主要的架構就是使用了spark streaming接受logservice實時推送過來的日誌,分析完成後,實時存放到rds中,出現問題時監控報警系統會觸發報警。
例如乙個有使用者瀏覽的**,日誌資訊用logservice接收。一方面存入到oss中,晚上啟動e-mapreduce離線分析,比如,頁面的uv、從a頁面到b頁面的調轉,提供運營同學資料化支援。另一方面,使用者在不斷瀏覽過程中,我們希望根據瀏覽情況實時自動推薦使用者內容,e-mapreduce spark streaming就實時接收 logservice的資料,再結合spark mllib的演算法,自動算出推薦內容,儲存到rds中,前端使用者瀏覽時推薦的內容會實時發生變化。
二. 容災設計
1. 資料容災
hadoop分布式檔案系統(hdfs)將每乙個檔案的資料進行分塊儲存,同時每乙個資料塊又儲存有多個副本(系統預設為每乙個資料塊存放3個副本),盡量保證這些資料塊副本分布在不同的機架之上(在大多數情況下,副本係數是3,hdfs的存放策略是將乙個副本存放在本地機架節點上,乙個副本存放在同乙個機架的另乙個節點上,最後乙個副本放在不同機架的節點上)。
hdfs會定期掃瞄資料副本,若發現資料副本發生丟失,則會快速的進行資料的複製以保證副本的數量。若發現節點丟失,則節點上的所有資料也會快速的進行複製恢復。在阿里雲上,如果是使用雲盤的技術,則在後台每乙個雲盤都會對應三個資料副本,當其中的任何乙個出現問題時,副本資料都會自動進行切換並恢復,以保證資料的可靠性。
hadoop hdfs是乙個經歷了長時間考驗且具有高可靠性的資料儲存系統,已經能夠實現海量資料的高可靠性儲存。同時基於雲上的特性,也可以在oss等服務上進行資料的額外備份,來達到更高的資料可靠性。
2. 服務容災
hadoop的核心元件都會進行ha的部署,即有至少2個節點的服務互備,如yarn,hdfs,hive server,hive meta,以保證在任何時候,其中任何乙個服務節點掛掉時,當前的服務節點都能自動的進行切換,保證服務不會受到影響。
混合雲應用雙活容災最佳實踐
越來越多的企業在數位化轉型和上雲程序中選擇混合雲的形態 雲 自建 idc 或雲 其他廠商雲 來進行容災建設,一方面不會過度依賴單一雲廠商,另一方面還能充分利用已有的線下 idc 資源。msha 雲原生多活容災解決方案 1 也發布了混合雲多活容災產品能力。本文會通過乙個業務 demo 案例,介紹混合雲...
為資料安全而生,阿里雲容災備份方案場景實踐解析
數字經濟時代,資料正以超出想象的速度快速增長。短短幾年,資料量已經從tb級別躍公升到pb乃至zb級別。根據相關研究機構調查結果顯示,2017 年全年資料總量將超過15.2zb,同比增長35.7 到2018 年全球資料總量達19.4zb。未來幾年全球資料的增長速度在每年25 以上,預計到2020年,全...
為資料安全而生,阿里雲容災備份方案場景實踐解析
數字經濟時代,資料正以超出想象的速度快速增長。短短幾年,資料量已經從tb級別躍公升到pb乃至zb級別。根據相關研究機構調查結果顯示,2017 年全年資料總量將超過15.2zb,同比增長35.7 到2018 年全球資料總量達19.4zb。未來幾年全球資料的增長速度在每年25 以上,預計到2020年,全...