大資料 hadoop 01 前言

2021-09-22 17:51:18 字數 592 閱讀 7584

hadoop:能做的事情是對歷史的資料進行分析和處理。

資料:data,資訊

結構化資料:database、spreadsheet、file in record format                                           

非結構化資料:

-> 半結構化資料:xml docs、logs、click stream、equipment

-> 完全非結構化資料:web pages、email、**********、doc、instant messages…

大資料4v:volume(規模大)、velocity(速度快)、variety(型別多)、value(價值密度低)

實時資料來源:

離線資料來源:對歷史資料 進行分析  ---  hbase、hive…

資料密集型(dic):在集群中所計算的資料的量比較大,但是計算過程並不複雜。 

計算密集型(cic):資料量並不大,但是計算過程是比較複雜的。

機器學習:當資料被處理完,用來獲取所處理的資訊。從資料集中獲取資訊。

雲計算(cloudcomputing):通過網際網路來提供動態易擴充套件且經常是虛擬化的資源。

超越Hadoop的大資料分析之前言

本文翻譯自 big data analytics beyond hadoop 譯者 吳京潤 校對 方騰飛 我試圖給人們學習大資料留下的一點深刻印象 儘管apache hadoop很有用,而且是一項非常成功的技術,但是這一觀點的前提已經有些過時了。考慮一下這樣一條時間線 由谷歌實現的mapreduce...

《實戰大資料》前言

實戰大資料 資料是重要資產 已成為大家的共識,眾多公司爭相分析 挖掘大資料背後的資訊財富。本書在這個背景下,對目前大資料及其相關技術的發展進行總結,理論聯絡實踐,既不缺乏理論深度又具有實用價值。前言隨著雲時代的來臨,大資料 big data 也吸引了越來越多的關注。大資料目前已經成為it領域最為流行...

大資料 Hadoop簡述

摘要 1個人 doug cutting 2個公司 google cloudera 命名由來 doug cutting 起先給他孩子的1個棕色的大象的玩具的名字 簡短 容易發音 易於拼寫 最初的模組 hdfs 與 mapreduce 後期不斷加入hbase hive等子模組專案,直至最終hadoop泛...