萌新初學大資料「辛酸」記(二)

2021-08-21 10:39:29 字數 963 閱讀 2416

2023年7月13日                    地點:長沙                    天氣:多雲

今天繼續學習大資料技術的原理和應用,在剛開始接觸的大資料,需要花多一點的時間將大資料的概述以及歷史多加了解。這樣在後續學習當中更加透徹與深入理解。

資料的產生方式的變革促成大資料時代的來臨,大資料的產生方式經歷了三個階段:

1.運營式系統階段

人類社會最早大規模管理和使用資料,是從資料庫的誕生開始的,資料庫中儲存了大量結構化的關鍵資訊。資料庫的出現使資料管理的複雜度大大降低,資料往往伴隨著一定的運營活動而產生並記錄在資料庫中,此階段資料的產生方式是被動的。

2.使用者原創內容階段

web1.0時代主要以門戶**為代表,強調內容的組織與提供,大量上網使用者本身並不參與內容的產生。web2.0技術以自服務模式為主,強調自服務,大量上網使用者本身就是內容的生成者。資料爆發產生於web2.0時代,而web2.0的重要標誌就是使用者原創內容,智慧型手機等移動裝置加速內容產生,資料產生的方式是主動的。如今最火的抖音就是大成者,他們不生產內容,他們只是內容的搬運者。

3.感知式系統階段

物聯網中的溫度感測器、濕度感測器、壓力感測器、位移感測器、光電感測器等,這些感知式系統的廣泛使用促**類社會資料量第三次大的飛躍,最終導致了大資料的產生。

大資料的基本特徵:

1.資料量大(volume)

「大資料摩爾定律」人類社會產生的資料一直都在以每年50%的速度增長。

2.資料型別繁多(variety)

3.處理速度快(velocity)

大資料時代的很對應用都需要基於快速生產的資料給出實時分析結果,用於指導生產和生活實踐。新興的大資料分析技術通常採用集群處理和獨特的內部設計。谷歌的dremel,是一種可擴充套件的、互動式的實時查詢系統,用於唯讀巢狀資料的分析,通過結合多級樹狀執行過程和列式資料結構。

4.價值密度低(value)

筆記內容來自《大資料技術原理與應用》      

初學大資料

短時間內快速的產生海量的多種多樣的有價值的資料 分布式儲存 分布式儲存簡單的來說,就是將資料分散儲存到多個儲存伺服器上,並將這些分散的儲存資源構成乙個虛擬的儲存裝置。分布式儲存架構由三個部分組成 客戶端 元資料伺服器和資料伺服器。客戶端負責傳送讀寫請求,快取檔案元資料和檔案資料。元資料伺服器負責管理...

科研萌新成長記21 疫情下的科研

早在1月剛剛出現幾例的時候,就開始刷屏親戚群,讓大家不要外出不要聚會不要拜年,最後乙個親戚還是來了我家,然後被我在群裡罵了一通,第二天悻悻地回去了,自此,沒人再串門了。心滿意足。給幾個在一線的摯友寄了一些口罩,不出意外被騙,然後擔心朋友用了口罩感染,於是跟上帝說,我寧願用每天看一篇 來換取朋友的健康...

大資料的新玩法

大資料雖然已經不是什麼新鮮事物,但是大資料正在給我們的生活帶來更多的驚喜和改變。如果你還認為大資料僅僅只是可以應用在交通 金融這些傳統領域,那麼就真的是 out 了。大資料的能力會讓你大開眼界,下面就來看看,大資料的新奇玩法 大資料 死亡 美國波士頓市貝斯以色列女執事醫療中心 beth israel...