hadoop:能做的事情是對歷史的資料進行分析和處理。
資料:data,資訊
結構化資料:database、spreadsheet、file in record format
非結構化資料:
-> 半結構化資料:xml docs、logs、click stream、equipment
-> 完全非結構化資料:web pages、email、**********、doc、instant messages…
大資料4v:volume(規模大)、velocity(速度快)、variety(型別多)、value(價值密度低)
實時資料來源:
離線資料來源:對歷史資料 進行分析 --- hbase、hive…
資料密集型(dic):在集群中所計算的資料的量比較大,但是計算過程並不複雜。
計算密集型(cic):資料量並不大,但是計算過程是比較複雜的。
機器學習:當資料被處理完,用來獲取所處理的資訊。從資料集中獲取資訊。
雲計算(cloudcomputing):通過網際網路來提供動態易擴充套件且經常是虛擬化的資源。
超越Hadoop的大資料分析之前言
本文翻譯自 big data analytics beyond hadoop 譯者 吳京潤 校對 方騰飛 我試圖給人們學習大資料留下的一點深刻印象 儘管apache hadoop很有用,而且是一項非常成功的技術,但是這一觀點的前提已經有些過時了。考慮一下這樣一條時間線 由谷歌實現的mapreduce...
《實戰大資料》前言
實戰大資料 資料是重要資產 已成為大家的共識,眾多公司爭相分析 挖掘大資料背後的資訊財富。本書在這個背景下,對目前大資料及其相關技術的發展進行總結,理論聯絡實踐,既不缺乏理論深度又具有實用價值。前言隨著雲時代的來臨,大資料 big data 也吸引了越來越多的關注。大資料目前已經成為it領域最為流行...
大資料 Hadoop簡述
摘要 1個人 doug cutting 2個公司 google cloudera 命名由來 doug cutting 起先給他孩子的1個棕色的大象的玩具的名字 簡短 容易發音 易於拼寫 最初的模組 hdfs 與 mapreduce 後期不斷加入hbase hive等子模組專案,直至最終hadoop泛...