1.大資料是指難以被傳統資料管理系統有效且經濟地儲存,管理,處理的複雜資料集。
大資料以
pb為單位,包含結構化,半結構化,無結構化資料,大資料給資料的採集,運輸,加密,儲存,分析和視覺化帶來了嚴峻的挑戰。
2.大資料五個特性:
volume
(資料規模巨大)
variety
(資料型別繁多)
velocity
(資料產生的速度快)
veracity
(分析結果取決於資料準確性)
value
(包含重要價值)
3.大資料處理方法:關聯規則學習(挖掘各個變數間的關係),
分類(通過訓練已有資料來識別新的資料),
聚類分析(按資料相似程度將整個資料集分為多個小規模資料集),
資料融合(將多個資料來源的資訊整合分析以產生新的更加精確,連續,有價值的資訊),
機器學習(一類演算法的總稱,關注設計演算法自動識別資料中的複雜模式),
自然語言處理(關注計算機與自然語言的聯絡,幫助計算機識別人類語言),
回歸(一組統計演算法,用來判別因變數與自變數的關係,以幫助**),訊號處理(一組用來識別,分析,處理訊號的技術),
**(模擬乙個複雜系統行為的技術,經常被用來**),
視覺化(將資料處理為影象,圖示,動畫,以幫助人類直觀了解資料)
4.大資料處理平台:
mapreduce
,其提供了一種分布式程式設計的抽象方法;
hadoop
,其包含了多個系統和工具以幫助完成大資料任務;
hdfs
,其用來可靠地分布式儲存資料;
hive
,其提供了
hadoop
上的sql
支援;hbase
,它是基於
hdfs
的一種非關係型資料庫;
zookeeper
,其提供了集群節點的乙個管理方法。
5.醫療健康大資料特點:多型性
指醫師對病人的描述具有主觀性而難以達到標準化
時效性指資料僅在一段時間內有用;
不完整性
指醫療分析對病人的狀態描述有偏差和缺失;
冗餘性指醫療資料存在大量重複或無關的資訊;
私隱性指使用者的醫療健康資料具有高度的私隱性,洩漏資訊會造成嚴重後果。
大資料基礎知識
一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫 軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案...
大資料基礎知識(待續)
最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...
大資料相關基礎知識
apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程 集群資源管理框架 4 hadoop mapreduce 基於...