1、什麼是大資料
大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
大資料的特點 一、
volume
:資料量大,包括採集、儲存和計算的量都非常大。大資料的起始計量單位至少是p
(1000個t
)、e(100萬個t
)或z(10
億個t)。
二、variety 三、
value
:資料價值密度相對較低,或者說是浪裡淘沙卻又彌足珍貴。隨著網際網路以及物聯網的廣泛應用,資訊感知無處不在,資訊海量,但價值密度較低,如何結合業務邏輯並通過強大的機器演算法來挖掘資料價值,是大資料時代最需要解決的問題。 四、
velocity
:資料增長速度快,處理速度也快,時效性要求高。比如搜尋引擎要求幾分鐘前的新聞能夠被使用者查詢到,個性化推薦演算法盡可能要求實時完成推薦。這是大資料區別於傳統資料探勘的顯著特徵。
五、veracity
:資料的準確性和可信賴度,即資料的質量。
資料倉儲就是面向主題的(subject-oriented )、整合的(integrated)、非易失的(non-volatile)和時變的(time-variant )資料集合,用以支援管理決策 。
資料倉儲不是可以買到的產品,而是一種面向分析的資料儲存方案。對於資料倉儲的概念可以從
兩個層次理解
:首先,資料倉儲用於支援決策,
面向分析型資料處理,不同於提高業務效率的操作型資料庫;
其次,資料倉儲對分布在企業中的多個異構資料來源整合,按照決策主題選擇資料並以新的資料模型儲存。
此外,儲存在資料倉儲中的資料一般不能修改。
etl,是英文 extract-transform-load 的縮寫,用來描述將資料從**端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。etl一詞較常用在
資料倉儲,但其物件並不限於資料倉儲。
兩者的具體區別在於:
(其實資料分析的範圍廣,包含了資料探勘,在這裡區別主要是指統計分析)
(1)資料量上:資料分析的資料量可能並不大,而資料探勘的資料量極大。
(2)約束上:資料分析是從乙個假設出發,需要自行建立方程或模型來與假設吻合,而資料探勘不需要假設,可以自動建立方程。
(3)物件上:資料分析往往是針對數位化的資料,而資料探勘能夠採用不同型別的資料,比如聲音,文字等。
(4)結果上:資料分析對結果進行解釋,呈現出有效資訊,資料探勘的結果不容易解釋,對資訊進行價值評估,著眼於**未來,並提出決策性建議。
資料分析是把資料變成資訊的工具,資料探勘是把資訊變成認知的工具,如果我們想要從資料中提取一定的規律(即認知)往往需要資料分析和資料探勘結合使用。
4、什麼是hadoop
hadoop
是乙個由
apache
所開發的分布式系統基礎架構。
• hadoop
在各方面都打破了傳統關係型資料庫的思路和模式
mapreduce-hadoop
的核心,是乙個可以對大量資料進行分布式處理的軟體框架,基於
map/reduce
技術。
mapreduce
的重要創新是當處理乙個大資料集查詢時會將其任務分解並在執行的多個節點中處理。
大資料入門學習(一) 初識大資料
大資料的定義 大資料 big data 又稱為巨量資料,指需要新處理模式才能具有更強的決策力 洞察力和流程優化能力的海量 高增長率和多樣化的資訊資產。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理 mpp 資料庫,資料探勘電網,分布式檔案系統...
大資料學習
1.資料清洗 洗掉髒資料,對資料最後一步審核和糾正,包括一致性檢查,無效資料,不完整資料,衝突資料,重複資料等的處理,計算機自動完成。2.資料傾斜 資料傾斜就是我們在計算資料的時候,資料的分散度不夠,導致大量的資料集中到了一台或者幾台機器上計算,這些資料的計算速度遠遠低於平均計算速度,導致整個計算過...
大資料學習
hadoop的hdfs和mapreduce子框架主要是針對大資料檔案來設計的,在小檔案的處理上不但效率低下,而且十分消耗記憶體資源 每乙個小檔案占用乙個block,每乙個block的元資料都儲存在namenode的記憶體裡 解決辦法通常是選擇乙個容器,將這些小檔案組織起來統一儲存。hdfs提供了兩種...