在網際網路技術發展到至今階段,大量日常,工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了**式的增長,以前傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的技術應運而生,這就是大資料技術。
換個角度說,大資料是:
有海量的資料
有海量的資料進行挖掘的需求,有對海量資料進行挖掘的工具(hadoop、spark等)
大資料在現實生活中的具體應用
資料處理測最典型應用:公司的產品運營情況分析
電商推薦系統:基於海量的瀏覽行為,購物行為資料,進行大量的模型的運算,得出各種推薦結論,一共電商**頁面來為使用者進行商品推薦,(猜你喜歡)
精準廣告推送系統:基於海量的網際網路使用者的各類資料,統計分析,進行使用者畫像(得到使用者的各種屬性標籤),然後可以為廣告主進行有針對性的進準的廣告投放。
簡單來說,從大資料的生命週期來看,無外乎四個方面:大資料採集、大資料預處理、大資料儲存、大資料分析,共同組成了大資料生命週期裡最核心的技術,下面分開來說:
大資料採集,即對各種**的結構化和非結構化海量資料,所進行的採集。
1.資料庫採集:流行的有sqoop和etl,傳統的關係型資料庫mysql和oracle 也依然充當著許多企業的資料儲存方式。當然了,目前對於開源的kettle和talend本身,也整合了大資料整合內容,可實現hdfs,hbase和主流nosq資料庫之間的資料同步和整合。
2.網路資料採集:一種借助網路爬蟲或**公開api,從網頁獲取非結構化或半結構化資料,並將其統一結構化為本地資料的資料採集方式。
3.檔案採集:包括實時檔案採集和處理技術flume、基於elk的日誌採集和增量採集等等。
大資料預處理,指的是在進行資料分析之前,先對採集到的原始資料所進行的諸如「清洗、填補、平滑、合併、規格化、一致性檢驗」等一系列操作,旨在提高資料質量,為後期分析工作奠定基礎。資料預處理主要包括四個部分:資料清理、資料整合、資料轉換、資料規約。
1.資料清理:指利用etl等清洗工具,對有遺漏資料(缺少感興趣的屬性)、噪音資料(資料中存在著錯誤、或偏離期望值的資料)、不一致資料進行處理。
2.資料整合:是指將不同資料來源中的資料,合併存放到統一資料庫的,儲存方法,著重解決三個問題:模式匹配、資料冗餘、資料值衝突檢測與處理。
3.資料轉換:是指對所抽取出來的資料中存在的不一致,進行處理的過程。它同時包含了資料清洗的工作,即根據業務規則對異常資料進行清洗,以保證後續分析結果準確性。
4.資料規約:是指在最大限度保持資料原貌的基礎上,最大限度精簡資料量,以得到較小資料集的操作,包括:資料方聚集、維規約、資料壓縮、數值規約、概念分層等。
大資料儲存,指用儲存器,以資料庫的形式,儲存採集到的資料的過程,包含三種典型路線:
1、基於mpp架構的新型資料庫集群
採用shared nothing架構,結合mpp架構的高效分布式計算模式,通過列儲存、粗粒度索引等多項大資料處理技術,重點面向行業大資料所展開的資料儲存方式。具有低成本、高效能、高擴充套件性等特點,在企業分析類應用領域有著廣泛的應用。
較之傳統資料庫,其基於mpp產品的pb級資料分析能力,有著顯著的優越性。自然,mpp資料庫,也成為了企業新一代資料倉儲的最佳選擇。
2、基於hadoop的技術擴充套件和封裝
基於hadoop的技術擴充套件和封裝,是針對傳統關係型資料庫難以處理的資料和場景(針對非結構化資料的儲存和計算等),利用hadoop開源優勢及相關特性(善於處理非結構、半結構化資料、複雜的etl流程、複雜的資料探勘和計算模型等),衍生出相關大資料技術的過程。
伴隨著技術進步,其應用場景也將逐步擴大,目前最為典型的應用場景:通過擴充套件和封裝 hadoop來實現對網際網路大資料儲存、分析的支撐,其中涉及了幾十種nosql技術。
3、大資料一體機
這是一種專為大資料的分析處理而設計的軟、硬體結合的產品。它由一組整合的伺服器、儲存裝置、作業系統、資料庫管理系統,以及為資料查詢、處理、分析而預安裝和優化的軟體組成,具有良好的穩定性和縱向擴充套件性。
從視覺化分析、資料探勘演算法、**性分析、語義引擎、資料質量管理等方面,對雜亂無章的資料,進行萃取、提煉和分析的過程。
1、視覺化分析
視覺化分析,指借助圖形化手段,清晰並有效傳達與溝通資訊的分析手段。主要應用於海量資料關聯分析,即借助視覺化資料分析平台,對分散異構資料進行關聯分析,並做出完整分析圖表的過程。
具有簡單明瞭、清晰直觀、易於接受的特點。
2、資料探勘演算法
資料探勘演算法,即通過建立資料探勘模型,而對資料進行試探和計算的,資料分析手段。它是大資料分析的理論核心。
資料探勘演算法多種多樣,且不同演算法因基於不同的資料型別和格式,會呈現出不同的資料特點。但一般來講,建立模型的過程卻是相似的,即首先分析使用者提供的資料,然後針對特定型別的模式和趨勢進行查詢,並用分析結果定義建立挖掘模型的最佳引數,並將這些引數應用於整個資料集,以提取可行模式和詳細統計資訊。
3、**性分析
**性分析,是大資料分析最重要的應用領域之一,通過結合多種高階分析功能(特別統計分析、**建模、資料探勘、文字分析、實體分析、優化、實**分、機器學習等),達到**不確定事件的目的。
幫助分使用者析結構化和非結構化資料中的趨勢、模式和關係,並運用這些指標來**將來事件,為採取措施提供依據。
4、語義引擎
語義引擎,指通過為已有資料新增語義的操作,提高使用者網際網路搜尋體驗。
5、資料質量管理
指對資料全生命週期的每個階段(計畫、獲取、儲存、共享、維護、應用、消亡等)中可能引發的各類資料質量問題,進行識別、度量、監控、預警等操作,以提高資料質量的一系列管理活動。
以上是從大的方面來講,具體來說大資料的框架技術有很多,這裡列舉其中一些:
檔案儲存:hadoop hdfs、tachyon、kfs
離線計算:hadoop mapreduce、spark
流式、實時計算:storm、spark streaming、s4、heron
k-v、nosql資料庫:hbase、redis、mongodb
資源管理:yarn、mesos
日誌收集:flume、scribe、logstash、kibana
訊息系統:kafka、stormmq、zeromq、rabbitmq
查詢分析:hive、impala、pig、presto、phoenix、sparksql、drill、flink、kylin、druid
分布式協調服務:zookeeper
集群管理與監控:ambari、ganglia、nagios、cloudera manager
資料探勘、機器學習:mahout、spark mllib
資料同步:sqoop
任務排程:oozie
······
大資料 什麼是大資料
1.什麼是資料 資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義 麥肯錫給出的大資料定義是 大資料是指大小超過常規的資料庫工具獲取 儲存 管理和分析能力的資料集。但它同時強調,並不是說一定要超過特定的tb值的資料才能是...
大資料 什麼是大資料?
海量的資料 tb pb zb。高增長率 資料的形成速度 使用爬蟲 多樣化 資料是結構化 非結構化 半結構化。電商行業 電商行業是最早利用大資料進行精準營銷,它根據客戶的消費習慣提前生產資料 物流管理等,有利於精細社會大生產。由於電商的資料較為集中,資料量足夠大,資料種類較多,因此未來電商資料應用將會...
什麼是大資料?
大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。在維克托 邁爾 捨恩伯格及肯尼斯 庫克耶編寫的 大資料時代 中大資料指不用隨機分析法 抽樣調查 這樣捷徑,而...