劃重點:運營商的混搭架構
#hadoop基礎技術
傳統的資料處理系統面臨的問題
#大資料的資料特徵:資料量大、格式複雜、響應速度要求高、資料價值密度低
#hdfs是基於谷歌的**開發,具備其他分布式檔案系統的相同特徵,也具有以下特徵,高容錯、高吞吐量、大檔案儲存。
#yarn是hadoop中的資源管理系統,他是乙個通用的資源管理模組,為各類應用程式進行資源管理和排程;優勢為:資源利用率高、運維成本低、資料共享方便
#mapreduce基於谷歌的分布式計算框架設計開發,用一天大規模資料集(大於1tb)的並行運算。優勢:容易程式設計、良好的擴充套件性、高容錯性。
#hive提供資料提取、轉換、載入功能,並可用類似於sql的語法,對hdfs海量資料庫中的資料進行查詢統計等操作。
#hbase–hadoop database,是乙個高可靠性、高效能、面向列、可伸縮的分布式儲存系統。
#spark系統是分布式批處理系統和分析挖掘引擎,spark可以用來快速處理資料,並支援迭代計算 ,有效應對多步的資料處理邏輯。
#hadoop用於離線統計分析:將海量的原始資料儲存到hdfs中,定期離線做彙**計,按分鐘、手機號、地域、業務型別等維度匯出到olap系統用於分析或報表。
#hadoop用於詳單查詢:將海量的原始xdr,載入入庫並轉化為半結構化的格式,用於低時延查詢。
#hadoop用於雲化etl,移動資料業務和流量的**式增長,帶來了網路建設和維護費用的成倍增加。要求將海量資料儲存在分布式儲存且能夠進行彙總等計算。
#資料探勘應用面臨的困難與挑戰:使用門檻高、應用周期長、模式設計與優化缺乏輔助工具、缺乏實時分析能力。
#常見的挖掘演算法
計網筆記(一)
物理層更多的是規定一種標準,他並不管物理介質具體是什麼,比如電線桿上是光纖還是雙絞線,只要你能按物理層規定的標準傳輸資料就行。物理層是規定傳輸 介面的標準 資料鏈路層的主要功能 1 封裝成幀 資料鏈路層並不是無腦 boss的資訊,她要把檔案編號封裝一下。封裝的網路資料報,在鏈路層就叫資料幀。2 透明...
網工學習筆記1
隨著網路硬體效能的不斷提高 成本的不斷降低,目前新建立的校園網基本上都採用了效能先進的千兆網技術,其核心交換機採用三層交換機,它能很好地支援虛擬區域網 vlan 技術,這對方便校園網的管理 保證校園網的高速可靠執行起到了非常重要的作用。什麼是vlan vlan virtual local area ...
Leetcode周賽 198學習筆記
leetcode官方題解 1518 1 模擬 先把所有的酒喝完,得到n個空酒瓶。隨後,每次可以拿e個空酒瓶換1瓶新酒,將這1瓶新酒喝完,與剩下的e 1個酒瓶,去換新酒 res numbottles emptybottles numbottles while emptybottles exchange...