作者 | 王新港馬雲曾在卸任演講的時候說過這樣一段話:出品 | cda資料分析研究院
「很多人還沒搞清楚什麼是pc網際網路,移動網際網路來了,我們還沒搞清楚移動互聯的時候,大資料時代又來了。」
而大資料專家埃里克·西格爾 博士曾在《大資料**》一書中描繪了乙個大資料時代下的一天:
2023年的一天,在你驅車前往公司的路上,導航系統通過**交通流量,會自動幫你選擇一條最合適的交通路線;車內推薦系統會根據你的飲食習慣**你可能會喜歡吃什麼,並推薦沿途的早餐店;你的電子社交助理已經為你自動選擇了你可能感興趣的社交網資訊。
離埃里克博士所說的2023年雖然還有3個月左右的時間,但是書中闡述的技術如「大資料交通技術」「個性化推薦系統」「人工智慧語音助理」等已經逐漸實現,並被人們廣泛應用。而這些技術都離不開「大資料」。
volume大容量、variety多樣性、value有價值、velocity速度,4個v是業界普遍認定的大資料特點。那麼大資料是如何改變我們的生活方式的呢?我們需要了解最重要的兩個問題。即
「大資料最核心的價值是什麼?」首先,我們需要知道現代人類的衣食住行無外乎三大產業「農業」「工業」「服務業」,而所有產業都會從大資料的發展中受益。「大資料最核心的技術是什麼?」
農業:
大資料技術可以應用在如「土壤抽樣分析」「氣象統計監管」等與土壤,農作物,**鏈相關的農業領域上,幫助第一產業的發展。如今國外已經有一些公司把大資料技術與農業進行落地,而在我國,農業大資料還僅僅是乙個起步階段。在未來,農民可以「知天而作」依靠大資料技術實現農作物產量翻倍,降低自然災害對農產品的影響等願景。工業:工業大資料是我國重點發展的乙個方向,工業與資訊化部門一直致力於我國工業大資料的發展。如果工業產業下的各個行業與大資料可以緊密結合,對人類的生活方式的改變將是巨大的。僅僅是電力系統的配電環節,如果可以做到基於海量使用者用電特徵資料分析,進而實現檯區的負荷**、用電排程、有序用電,將極大地優化我國電力資源的分配,實現可持續發展。服務業:
第三產業是與人們的生活貼合最緊密的乙個產業。我們從幼年到老年,教育,交通,醫療,金融等行業或多或少都與我們生活相關,而這些行業與大資料更是密不可分。
醫療:
臨床資料的採集分析,優化診療流程
可穿戴裝置通過監測個人的行為如行走步數等改善我們的健康狀況
通過大資料分析生成報告顯示使用者所在地區的流感活動。
交通:
路網監控優化重點城市交通壓力
電子導航即時分析道路狀況,為車主調整最佳路線
物流行業的車輛,路線,網點建設
娛樂:
網易雲**「個性化推薦」
《紙牌屋》演員的篩選
電信:
通過大資料平台優化網路布局,提公升使用者體驗
記錄使用者在wifi網路中的地理位置等資料銷售給廣告客戶。
銀行:
風控模型的建立與優化
定製化金融服務等
由於某些客觀原因,相對於第一產業和第二產業來說,第三產業憑藉自身的優勢,大多匯聚了當前最海量的資料以及大批的科研中堅力量。而無論在哪一產業,隨著計算機處理能力的日益強大,你能獲得的資料量越大,你能挖掘到的價值就越多。
分布式系統:
hadoop:作為乙個開源的框架,專為離線和大規模資料分析而設計。
資料採集:
sqoop:用來將關係型資料庫和hadoop中的資料進行相互轉移的工具,可以將乙個關係型資料庫中的資料匯入到hadoop(中,也可以將hadoop中的資料匯入到關係型資料庫中。
資料儲存,預處理:
hbase:是乙個分布式的、面向列的開源資料庫,可以認為是hdfs的封裝,本質是資料儲存、nosql資料庫。
hql:hibernate query language的縮寫,提供更加豐富靈活、更為強大的查詢能力;hql更接近sql語句查詢語法。
mapreduce:hadoop的查詢引擎,用於大規模資料集的平行計算,」map(對映)」和」reduce(歸約)」,是它的主要思想。它極大的方便了程式設計人員在不會分布式並行程式設計的情況下,將自己的程式執行在分布式系統中。
資料分析:
hive:核心工作就是把sql語句翻譯成mr程式,可以將結構化的資料對映為一張資料庫表,並提供 hql(hive sql)查詢功能。
spark:擁有hadoop mapreduce所具有的特點,它不需要讀取hdfs。spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。
pyspark:由python和spark組合使用,做前期資料處理速度快,還自帶mllib可以實現一些基本的模型
建模,資料探勘:
sparkmllib:是spark的機器學習(ml)庫。其目標是使實際的機器學習可擴充套件和容易,同時包括相關的測試和資料生成器。spark的設計初衷就是為了支援一些迭代的job, 這正好符合很多機器學習演算法的特點。
雲計算助力大資料分析
前記 這是我老婆隨手寫的一篇文章,結合了她當前的分析工作和雲計算,介紹了雲計算對大資料分析的助力。在網際網路後時代,資料分析已經成為企業保持競爭力的必要方法。企業在成長和發展的過程中積累了海量的資料,這些歷史資料不管是通過紙質媒介,還是通過硬碟記錄下來,都是企業寶貴的資料資產。對資料進行數位化處理,...
大資料人才戰報 十大資料分析職業趨勢
與大資料概念知名度和企業熱情形成對比的是 大資料正面臨全球性的人才荒。企業對新型大資料分析和 技術人才的熱情和需求正在超過傳統的商業智慧型和資訊管理人才。無論是資料分析的新手還是老鳥,都需要對大資料引發的資料分析職業革命做好充分的準備,以下是information week根據一次大資料企業應用調查...
信訪分析 大資料 常見的大資料分析模型
今天我們主要為大家講解在做大資料視覺化時,有哪些常見得到資料分析模型。資料模型可以從兩個角度來區分 資料和業務。統計資料視角的實體模型通常指的是統計分析或大資料探勘 深度學習 人工智慧技術等種類的實體模型,這些模型是從科學研究視角去往界定的。1 降維 對大量的資料和大規模的資料進行資料探勘時,往往會...