一、大資料的4v特性
1、volume:體量巨大
2、variety:資料型別繁多
3、value:價值密度低
4、velocity:處理速度快
二、大資料處理需要解決的問題
1、儲存
2、計算
3、挖掘
4、展現
三、大資料處理涉及的6個方面
1、資料入口
資料傳輸和同步一般採用基於時間線的實時同步和批量同步二種方案。
實時同步:linkedin的databus+kafaka、**的timetunnel。
批量同步:facebook的scribe、cloudera的flume、hadoop的chukwa。
2、資料的分布式儲存
基於核心層:ceph、glusterfs
基於使用者層:hdfs、gfs
業務層:hbase(列儲存)、mongodb(文件資料庫)、cassandra(k/v型資料庫)、neo4j(圖形資料庫)
facebook已經放棄cassandra,轉而開始使用hbase了。
3、資料計算
離線計算:hadoop以及在其之上的hive/pig。
4、資料探勘
基於hadoop的mahout、rhadoop
5、資料視覺化
facebook 的insights
6、綜合管理平台
precog的labcoat
資料處理工具之awk
1.awk是以行為一次處理的單位,而以字段為最小的處理單位。awk分別代表其作者姓氏的第乙個字母。因為它的作者是三個人,分別是alfred aho brian kernighan peter weinberger。2.awk命令的格式 awk 條件型別1 條件型別2 filename 備註,awk可...
awk 好用的資料處理工具
平常工作或學習中總是需要對一些資料進行處理 例如在工作中,需要對日誌的一些資料進行統計 而awk 這是好用的工具之一,傾向於一行當中分成數個字段進行處理。awk 條件型別1 條件型別2 filename兩個單引號 大括號 設定想要對資料進行的處理操作,filename表示處理的資料檔案。1 可以對檔...
大資料處理
大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...