基於雲計算與大資料應用開發的論述

2021-09-25 03:57:11 字數 2935 閱讀 6768

基於雲計算與大資料應用開發的論述

2023年前後由雲計算、大資料等技術的快速發展帶來了第三次資訊化浪潮,標誌著大資料時代的來臨;儲存裝置容量的不斷增加、cpu處理能力的大幅提公升、網路頻寬的不斷增加等資訊科技領域的不斷進步為大資料時代提供了技術支撐;而最終促進大資料時代來臨的重要因素便是資料產生方式的變革。大資料也是慢慢發展而來的,它經歷了萌芽期、成熟期和大規模應用期才達到了如今的規模;大資料之所以能得到社會的廣泛認可,與它的資料量大、資料型別繁多、處理速度快以及價值密度低等顯著特點有關;大資料發展的過程中,對科學研究、思維方式和社會發展都產生了重要而深遠的影響;大資料的諸多特點使得它在各行各業中深受大家的喜愛,如今的大資料無處不在,各個領域都有廣泛涉及。在了解大資料之後,人們會逐漸的對大資料的技術充滿期待,發展到今日,大資料擁有了很多的技術,其中主要包括資料採集與預處理、資料儲存和管理、資料處理與分析、資料安全和隱私保護等幾個層面的內容;大資料也擁有自己的計算模式,如:批處理計算、流計算、圖計算、查詢分析計算等;一切與支撐大資料組織管理和價值發現相關的企業經濟活動的集合都是大資料產業,其主要包含了it基礎設施層、資料來源層、資料管理層、資料分析層、資料平台層和資料應用層;作為與大資料同樣引起廣泛關注的雲計算與物聯網,它們三者之間存在著怎樣的關係呢?雲計算實現了通過網路提供可伸縮的、廉價的分布式計算能力、使用者只需要在具備網路接入條件的地方,就可以隨時隨地獲得所需的各種it資源;物聯網是物物相連的網際網路,它利用區域性網路或網際網路等通訊技術把感測器、人員和物等通過新的方式連線在一起,形**與物、物與物相連,實現資訊化和遠端控制;大資料、雲計算、物聯網三者相輔相成,同時又有各自的側重點。

大資料處理架構hadoop:hadoop是乙個開源的、可執行與大規模集群上的分布式計算平台,它實現了mapreduce計算模型和分布式檔案系統hdfs等功能,在業內得到了廣泛的應用,因此也成為了大資料的代名詞;

⑵大資料儲存與管理

分布式檔案系統hdfs:hdfs(hadoop distributed file system)是針對谷歌開發的分布式檔案系統gfs(google file system)的開源的實現,它是hadoop兩大核心組成部分之一,提供了在廉價伺服器集群中進行大規模分布式檔案儲存的能力;hdfs具有很好的容錯能力,並且相容廉價的硬體裝置,因此可以以較低的成本利用現有機器實現大流量和大資料量的讀寫

分布式資料庫hbase:hbase是針對谷歌bigtable的開源實現,是乙個高可靠、高效能、面向列、可伸縮的分布式資料庫,主要用來儲存非結構化和半結構化的鬆散資料。hbase可以支援超大規模資料儲存,它可以通過水平擴充套件的方式,利用廉價的計算機集群處理超過10億行資料和百萬列元素組成的資料表

nosql資料庫:nosql是對非關係型資料庫的統稱,它所採用的資料模型並非傳統關聯式資料庫的關係模型,而是類似鍵/值、列族、文件等非關係模型。nosql具有靈活的水平可擴充套件性,可以支援海量資料儲存。並且支援mapreduce風格的程式設計,可以較好的應用於大資料時代的各種資料管理。

雲資料庫:雲資料庫是部署在雲計算環境中的資料庫,它是一種新興的共享架構的方法,極大地增強了資料庫的儲存能力,消除了人員、硬體、軟體的重複配置,讓軟、硬體公升級更加容易,同時也虛化了許多後端功能。其具有高可擴充套件性、高可用性、採用多租形式和支援資源有效分發等特點。

⑶大資料處理與分析

mapreduce:mapreduce是一種並行程式設計模型,用於大規模資料集(大於1tb)的並行運算,它將複雜的、執行於大規模集群上的平行計算過程高度抽象到兩個函式:即map和reduce。mapreduce的存在極大的方便了分布式程式設計工作,程式設計人員在不會分布式並行程式設計的情況下,也可以很容易將自己的程式執行在分布式系統上,完成海量資料集的計算。

spark:spark是乙個可用於大規模資料處理的快速、通用引擎,其不僅具備hadoop mapreduce的優點,且解決了hadoop mapreduce的缺陷。spark有著結構一體化、功能多元化的優勢,具有執行速度快、容易使用、通用性強、執行模式多樣等特點,因此spark逐漸成為大資料鄰域的熱門大資料計算平台。

流計算:流計算平台實時獲取來自不同資料來源的海量資料,經過實時分析處理,獲得有價值的資訊,其觀念是:資料的價值隨著時間的流逝而降低,因此當事件出現時就應該立即處理,而不是快取起來進行批量處理。流計算滿足資料的需求需要有高效能、海量式、實時性、分布式、易用性、可靠性等特點

圖計算:在大資料時代,許多大資料都是以大規模圖或網路的形式呈現,因此產生了圖計算框架,作為代表性作品的pregel是一種基於bsp(bulk dynchronous parallel)模型的並行圖處理系統,為了解決大型圖的分布式計算問題,pregel搭建了一套可擴充套件的、有容錯機制的平台,該平台提供了一套非常靈活的api,可以描述各種各樣的圖計算。

資料視覺化:資料視覺化是指將大型資料集中的資料以影象形式表示,並利用資料分析和開發工具發現其中未知資訊的處理過程。資料視覺化可以將枯燥的資料以簡單的圖表形式展現出來,可以讓資料變得更加通俗易懂,有助於使用者更加方便快捷的理解資料的深層次含義,有效參與複雜的資料分析過程,提公升資料分析效率,改善資料分析效果。

⑷大資料的應用

大資料已經在社會生產和生活得到了廣泛的應用,對人類社會的發展起著重要的推動作用。推薦系統是網際網路鄰域對大資料的具體使用,通過分析使用者的歷史資料來了解使用者的需求和興趣,從而將使用者感興趣的資訊、物品等主動推薦給使用者;流行病**是生物醫學鄰域運用大資料的乙個重要的應用,以搜尋資料和地理位置資訊為基礎,分析不同時空尺度人口流動性,移動模式和引數,進一步結合醫學、人口統計學、地理、氣象和地域等多種資訊,建立流行病時空傳播模型,實時監控流行病,更好的**和防範流行病。大資料在其他鄰域也有廣泛的應用,如:物流鄰域中的智慧型物流,城市管理中的智慧型交通、環保監測、城市規劃、安防鄰域,金融行業中的風險分析,以及汽車行業、餐飲行業、電信行業、能源行業、安全鄰域行業等。

總結:我們身處大資料時代,大資料已經觸及世界每乙個角落,並為我們帶來諸多變化和方便。擁抱大資料,學習大資料,使用大資料是我們每個人的必然選擇,我們每天都在不斷生成各種資料,在我們貢獻資料的同時,也從資料中獲取價值。未來,是乙個大資料的世界。

05雲計算與大資料學習之雲計算應用

3 參考文獻 物聯網的概念 顧名思義就是物物相連的網際網路。這有兩層意思 其一,物聯網的核心和基礎仍然是網際網路,是在網際網路基礎上延伸和擴充套件的網路 其二,其使用者端延伸和擴充套件到了任何物品與物品之間,進行資訊交換和通訊,也就是物物相息。應用創新是物聯網發展的核心,以使用者體驗為核心的創新是物...

大資料與雲計算

近幾年來,雲計算受到學術界和工業界的熱捧,隨後,大資料橫空出世,更是炙手可熱。那麼,大資料和雲計算之間是什麼關係呢?從整體上看,大資料與雲計算是相輔相成的 大資料著眼於 資料 關注實際業務,提供資料採集分析挖掘,看重的是資訊積澱,即資料儲存能力。雲計算著眼於 計算 關注it解決方案,提供it 基礎架...

大資料與雲計算

近幾年來,雲計算受到學術界和工業界的熱捧,隨後,大資料橫空出世,更是炙手可熱。那麼,大資料和雲計算之間是什麼關係呢?從整體上看,大資料與雲計算是相輔相成的 大資料著眼於 資料 關注實際業務,提供資料採集分析挖掘,看重的是資訊積澱,即資料儲存能力。雲計算著眼於 計算 關注it 解決方案,提供it 基礎...