現在全球資料量以每年60%的速度增長,預計2023年,資料量將進入zb時代。而大資料的應用又十分的廣泛,無論是在學術研究、生產實踐、公司戰略、國家治理等各個方面都具有非同尋常的意義。因此對大資料的學習和研究是必不可少的。
大資料的核心目標
利用好資料實現大資料的高效儲存管理和**值的挖掘分析
大資料三層結構
大資料的計算和處理
大資料的儲存和管理
大資料的採集和預處理
總的來說,大資料向下要使用和管理好各種介質,向上要滿足各種大資料的處理和計算需求。
大資料所面臨的主觀挑戰
資料量大,從中找出所需要的價值並不容易。
資料的種種特性給資料的儲存和管理帶來了很大的困難。例如:多樣性、實時性、不確定性,關聯性
大資料所面臨的客觀挑戰
資料的爆發性增長,給企業帶來了一定的成本壓力。
技術的不斷發展,對從業人員提出更高的要求,從而帶來各種管理和結構上的問題。
分布式
大資料採用分布式架構的方式,分布式有可擴充套件、高可靠、低成本的優點。
分布式所面臨的挑戰
可靠性:在發生裝置故障時,如何保證既有的業務不受影響。
差異性:採用分布式的架構,各個裝置效能可能並不一致,如何進行負載均衡,保證可靠的同時,降低成本。
分布式的主要問題
針對不同的大資料處理,分析和查詢,進行有效儲存的布局和優化
在保證執行可靠的情況下,如何降低成本
針對更新頻繁的資料,如何進行儲存和處理
大資料時代 大資料,大視野
關於 大資料,不同的書和不同的作者可能會有不太完全相同的定義。如,有的學者認為 所涉及的資料量規模巨大,無法通過目前主流軟體工具在合理時間內達到擷取 管理 處理並整理成為幫助企業經營決策更積極目的的資訊。而維克托認為大資料是人們在大規模資料的基礎上可以做到的事情,而這些事情在小規模資料的基礎上是無法...
大資料學習總結04
三 bi資料視覺化平台 superset superset是一款開源的現代化企業級bi。它是目前開源的資料分析和視覺化工具中比較好用的,功能簡單但可以滿足我們對資料的基本需求,支援多種資料來源,圖表型別多,易維護,易進行二次開發。1 入門案例 將資料庫裡的資料按照要求進行視覺化展示 案例01 使用s...
大資料學習總結03
二 視覺化etl平台 kettle etl,是英文extract transform load的縮寫,用來描述將資料從 端經 extrac過抽取t 轉換 transform 載入 load 至目的端的過程。etl是將業務系統的資料經過抽取 清洗 轉換之後載入到資料倉儲的過程,目的是將分散 零亂 標準...