2020 2 2 寒假自學 學習進度報告9

2022-08-17 08:27:13 字數 1125 閱讀 3283

因為想要通過hive作為資料庫來儲存爬取後和處理完成的資料,需要新增spark的hive支援,這方面還沒編譯完,所以今天暫時沒有這方面的進度,所以寫寫sparksteaming。

資料的價值隨著時間的流逝而減少

這也正是mapreduce的使用範圍所產生的的極大弊端,沒法應對大流量的實時資料,mr這類離線處理並不能很好地解決問題。

流計算可以很好地對大規模流動資料在不斷變化的運動過程中實時地進行分析,捕捉到可能有用的資訊,並把結果傳送到下一計算節點。而spark中能很好地處理流計算的就是sparksteaming。

sparksteaming有很好地實時性、低延遲與穩定可靠,但缺點相對也有,就是無法做到毫秒級延遲,但優點也很明顯,支援從多種資料來源獲取資料,包括kafk、flume、twitter、zeromq、kinesis 以及tcp sockets,還可以使用spark的其他子框架,如集群學習、圖計算等,對流資料進行處理。

對應的批資料,在spark核心對應乙個rdd例項,因此,對應流資料的dstream可以看成是一組rdds,即rdd的乙個序列。通俗點理解的話,在流資料分成一批一批後,通過乙個先進先出的佇列,然後 spark engine從該佇列中依次取出乙個個批資料,把批資料封裝成乙個rdd,然後進行處理,這是乙個典型的生產者消費者模型,對應的就有生產者消費者模型的問題,即如何協調生產速率和消費速率。

dstream(discretized stream)作為spark streaming的基礎抽象,它代表持續性的資料流。這些資料流既可以通過外部輸入源賴獲取,也可以通過現有的dstream的transformation操作來獲得。在內部實現上,dstream由一組時間序列上連續的rdd來表示。每個rdd都包含了自己特定時間間隔內的資料流。如下圖所示,dstream中在時間軸下生成離散的rdd序列。。

對dstream中資料的各種操作也是對映到內部的rdd上來進行的,如圖所示,對dtream的操作可以通過rdd的transformation生成新的dstream。

寒假自學進度11

2,資料清洗 對熱詞資訊進行資料清洗,並採用自動分類技術生成自動分類計數生成資訊領域熱詞目錄。5,資料視覺化展示 用字元雲或熱詞圖進行視覺化展示 用關係圖標識熱詞之間的緊密程度。6,資料報告 可將所有熱詞目錄和名詞解釋生成 word 版報告形式匯出。再運用xpath獲取相應的位置的解釋,輸出即可。需...

寒假自學進度4

今天主要學習了spark執行基本流程rdd概念rdd 中的依賴關係spark劃分rdd 在 spark 架構中的執行過程 以及完成實驗一linux系統常用命令 spark執行基本流程 sparkcontext 會向資源管理器註冊並申 請執行 executor 的資源 2 資源管理器為 executo...

寒假自學進度1

今天主要學習了對spark的初步認識以及相應名詞的理解 包括spark特點 scala特性 bdas架構 spark元件的應用場景 spark基本概念 spark執行架構 spark架構設計的優點 spark各種概念之間的相互關係 hadoop 是基於磁碟的大資料計算框架 spark是基於記憶體計算...