。大資料時代來臨的因素:
1.1資訊浪潮
1.第一次 1980 pc機 解決問題:資訊處理 代表企業 :intel amd ibm
2.第二次 1995 網際網路 解決問題:資訊傳輸 代表企業:雅虎,谷歌 bat
3.第三次 2010 物聯網、雲計算、大資料 解決問題:資訊** 代表企業 亞馬遜、谷歌、cloudera、阿里雲等
1.2信科技為大資料時代提供技術支撐
1.儲存裝置容量增加(***光碟為例。將來可以 1***容量 10^6gb
2.cpu處理能力提公升
3.網路頻寬增加
1.3資料產生方式的變革促成大資料時代的來臨(資料產生階段)
1.運營式系統階段
2.使用者原創內容階段
3.感知系統階段
1.4大資料發展歷程
1.萌芽期 20世紀90年代 -21世紀初 資料庫技術成熟和資料探勘理論
2.成熟期 21世紀前10年 web2.0應用發展,非結構化資料大量產生,hadoop平台mapreduce技術
3.大規模應用 2023年後 資料驅動決策,資訊社會智慧型化程度
2 大資料的概念
4v volume 資料量大 variety 資料型別繁多 velocity 處理速度快 value 價值密度低
2.1 資料量大
1zb=1024eb 1024pb 1024tb 1024gb 1024mb 1024kb 1024byte 8bit
大資料以每年50%的速度在增長,也就是說每兩年就增加一倍,這被稱為「大資料摩爾定律」
2.2 資料型別繁多
10%儲存在關係型資料庫中,90%儲存在非關係型資料庫中
2.3 處理速度快
2.4 價值密度低
3 大資料的影響
人類科學研究經歷四種模式:
1.實驗科學
2.理論科學
3.計算科學
4.資料密集型科學
思維的轉變:
1.全面而非抽樣
2.效率而非精確
3.相關而非因果
大資料計算模式
1.批處理計算
2.流計算
3.圖計算
4.查詢分析計算
大資料與雲計算和物聯網
大資料: 4v volume 資料量大 variety 資料型別繁多 velocity 處理速度快 value 價值密度低
雲計算:通過網路提供課伸縮的、廉價的分布式計算能力,使用者只需要在具備網路接入條件的地方,就可以隨時隨地獲得所需的各種it
資源。雲計算包括3種典型的服務模式。laas paas saas 基礎設施即服務 平台即服務 軟體即服務
1.雲計算關鍵技術:
虛擬化、分布式儲存、分布式計算、多租戶等。
2.雲計算資料中心 (地質穩定,涼爽舒適)
計算中心電力利用:(55%電力用於製冷 45%伺服器(其中70%伺服器風扇,30%cpu(其中10%用於計算)))
物聯網:物物相連的物聯網,是網際網路的延伸,利用區域性網路或網際網路等通訊技術把感測器、控制器、機器、人員和物等通過
新的方式連在一起,形**與物、物與物相連,實現資訊化和遠端管理控制。
技術角度分四個層面:感知層、網路層、處理層和應用層。
區別:大資料側重於對海量資料的儲存、處理與分析,從海量資料中發現價值,服務與生產和生活。
雲計算本質旨在整合和優化各種it資源,通過網路以服務的方式廉價地提供給使用者
物聯網發展目標物物相聯,應用創新時物聯網的核心。
聯絡:雲計算為大資料提供了技術基礎。雲計算為物聯網提供海量資料儲存能力。
大資料為雲計算提供用武之地。大資料為物聯網資料分析提供支撐。
物聯網為雲計算技術提供了廣闊的應用空間。物聯網是大資料的重要**。
Python大資料分析 開篇
python大資料分析 開篇 目前在網上看了很多部落格,都是一些關於資料處理的,且都淺嘗輒止,沒有形成乙個系列,只言片語,不能給人以更深層次的啟發。加之,最近在用python做金融大資料這塊的分析,故寫部落格以記之,以供他人閱,相互交流。大資料分析的意義,我自不用多述。眾多金融公司,無不在挖掘其價值...
大資料運維 開篇詞 掌握大資料,把握未來
高俊峰 南非螞蟻 你好,歡迎來到 大資料運維實戰 專欄 2020版 入行以來,我從事大資料運維也有十多年了,期間我做過系統運維 dba,也做過大資料分析師,最後選擇了大資料運維方向,曾設計並管理超過千台 pb 級的資料平台。在這期間,我見證並目睹了國內大資料行業發展的歷程,也看到了目前大家在大資料學...
大資料虛擬化零起點 1開篇
大資料的虛擬化 企業it發展潮流 大資料的虛擬化是當前大資料以及hadoop社群的乙個發展趨勢。gartner在2013年6月舉行的hadoop summit大會上提到,為了讓hadoop等大資料技術真正落地企業,我們要從具體業務需求出發,驅動大資料相關技術和產品的進一步發展,逐漸告別之前技術驅動的...