大資料處理的一些總結和應用(有關輿情監控)

2021-07-11 11:57:10 字數 1402 閱讀 7547

說到大資料處理可能大家都不會陌生,這是近年來非常火熱的話題,各行各業都想借助大資料為自己助力,有了這個工具,就好像在飛機上看農田一般清晰,一目了然,也也就是業內人士常說的大資料提供了乙個------上帝視角

大資料的概念:

1、指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理的時間內達到擷取、管理、處理並整理成為幫助企業經營決策更積極目的的諮詢。

2、維克托·邁爾-捨恩伯格以及肯尼斯·庫克耶編寫的《大資料時代》中大資料指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有資料進行分析處理。

3、海量異構的資料(包括文字、影象、聲音等)。

大資料的4v特點:volume(大量)、velocity(高速)、variety(多樣)、value(價值)

大資料處理的應用場景有很多:

1.阿里巴巴平台----**雙十一

2.**交易系統

3.智慧型城市

4.情報分析,輿情監控

大資料處理的的發展歷史和架構演進,可以看成:

是從傳統手工作坊(分布式批處理)到流水線工廠(hadoop)再到沒有中間商 的o2o平台(spark)

開源工具簡介---批處理

hadoop common:hadoop體系最底層的乙個模組,為hadoop各子專案提供各種工具,如:配置檔案和日誌操作等。

hdfs:是hadoop的分布式儲存系統,同google的gfs性質是一樣的。

mapreduce:是一種程式設計模型,用於大規模資料集的並行運算。

hive是基於hadoop的乙個資料倉儲工具,提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行,十分適合資料倉儲的統計分析。

pig:pig最大的作用就是對mapreduce演算法(框架)實現了一套shell指令碼 ,類似我們通常熟悉的sql語句,在pig中稱之為pig latin。

hbase:乙個分布式、可擴充套件的大資料儲存。它提供了大資料集上隨機和實時的讀/寫訪問,並針對了商用伺服器集群上的大型**做出優化——上百億行,上千萬列。它是google bigtable的乙個開源的實現。

zookeeper:它是乙個針對大型分布式系統的可靠協調系統,功能包括:配置維護、名字服務、 分布式同步、組服務等。zookeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。它是 google的chubby乙個開源的實現。

輿情監控系統的系統流程:

資料處理的一些方法

1 保留小數點後兩位 四捨五入alert num.tofixed 2 2 保留小數點後兩位 把後面捨去math.floor 15.7784514000 100 100 輸出結果為 15.77 yuantocent yuan yuantocent 5.55 100 呼叫時需要除以100之後數值才是對應...

大資料處理平台簡介和總結

批量大資料 靜態的批量資料,在計算前已經獲取儲存,計算中不發生變化 流式大資料 按時間順序無限增加的動態資料序列 大規模圖資料 大規模的圖結構資料,如 社交網路圖。圖資料存在較強的區域性依賴性 資料採集層 包括業務資料 網際網路資料 可以通過爬蟲採集 物聯網資料 可以通過流採集 資料儲存層 注意非關...

對於大資料的一些處理方法

問題 資料太大,在記憶體中無法一次性裝入。分析 100億就是大約就是10g,對於現在的計算機而言,記憶體中無法容納這麼大的檔案。解決 將乙個大檔案切分為多個小檔案,例如 我們可以將該100億的大檔案切分為1000個檔案,即每個檔案的大小大約就是10m,那麼就可以在記憶體中容納得下了。那麼,我們要怎麼...