大資料筆記(一)

2021-09-22 14:04:06 字數 2181 閱讀 8531

現在的社會發展相當迅速,科技發達,資訊流通,使得人們之間的交流越來越密切,生活也越來越方便,在智慧型手機、智慧型穿戴裝置基本普及的高科技時代的背景下,大資料應運而生。

未來的時代將不再是it時代,而是dt(data technology)時代。各個行業和領域都已經被資料滲透了,資料已然成為非常重要的生產因素。在dt時代,大資料才是主角,對於大資料的挖掘和處理必不可少。

大資料的大小並沒有乙個確切的衡量標準,而大資料的重點也並不在檔案資料等的大小,資料的價值才是大資料的真正意義。所以大資料的意義並不在於量上的「大」,而是在於資料的「有用」。所以通過大資料實現盈利的關鍵在於如何提高對大資料的「加工」能力。

維基百科給出的大資料的定義是: 大資料是指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合。

ibm提出通過4+1個v來定義大資料的特點:volume(容量)、velocity(速度)、variety(多樣性)、veracity(真實性)和value(價值),容量大、處理速度快、**多樣性高的資料,同時具備真實性,並能創造,可以在多種層面進行應用,這就是大資料的特質。

​ 大資料是指無法在可承受的時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合。

1、ibm 4+1個v

​ volume(容量)、velocity(速度)、variety(多樣性)、veracity(真實性)、和value(價值),容量大、處理速度快、**多樣性高的資料,同時具備真實性,並能創造,可以在多種層面進行應用,這就是大資料的特質。

volume(容量)1024gb = 1tb、1024tb = 1pb 、1024pb = 1eb。

2、volume(容量)為了更準確地理解人們現在面臨的資料量大小,再來看一組公式:

1024gb=1tb

1024tb=1pb

1024pb=1eb

阿里資料量50tb/天,18pb/年*3~至今紙質圖書的資料量

3、velocity(高速),持續的高速增長

以1分鐘為單位,看看在**的資料世界中發生了什麼。

(1)搜尋:全球最大的搜尋引擎google處理了200萬次搜尋請求。

(2)通訊:在中國產生了時長531萬分鐘的移動通話,發出了165萬條簡訊。

大資料框架

離線分析 hadoop、實時分析 storm、記憶體計算spark、演算法、資料探勘分析r

​ 資料生產方式變的自動化

​ 資料生產融入到每個人的日常生活

​ 網路技術的發展為資料的生產提供了極大的方便

​ 雲計算概念的出現進一步促進了大資料技術的發展

linux核心最初只是由芬蘭人李納斯•托瓦茲(linus torvalds)在赫爾辛基大學上學時出於個人愛好而編寫的。

linux能執行主要的unix工具軟體、應用程式和網路協議。它支援32位和64位硬體。linux繼承了unix以網路為核心的設計思想,是乙個支援多使用者、多工、多執行緒且效能穩定的多使用者網路作業系統。

**開源且免費:**使用者可以任何網路途徑來進行獲得,並可以任意修改其源**

**支援多平台:**可以在多種硬體平台上安裝和執行,如x86或嵌入式系統(三星、oppo、小公尺等安裝系列的手機底層使用的就是linux系統)。

linux主要的發行版

1.redhat linux:紅帽企業級linux,它有眾多的程式支援,同時也可以提供技術服務,由於他是商業化產品,所有不是免費的。

2.centos:一款企業級linux,它使用紅帽企業級linux中的免費源**重新構建而成。這款重構版完全去掉了註冊商標,免費版。

3.其他: ubuntu、debain、fedora、suse、opensuse、turbolinux、bluepoint、redflag、xterm、slackware等。

linux應用領域

從嵌入式裝置到超級計算機,並且在伺服器領域使用非常多。

**1.**所需軟體

vmware-workstation/virtualbox****虛擬機器

centos-6.5-x86_64-bin-***1作業系統

ssh secure file transfer client**、securecrtv5.1或**xshell**連線遠端雲主機/**本地虛擬機器

大資料初接觸(筆記一)

簡單的說 就是短時間內快速的 產生海量的 多種多樣的 有價值的資料。主要做預算類的 比如天氣預報,車流量統計 明天阻不阻塞 管理元資料 索引 namenode 儲存的電腦 負責儲存源資料 datenode 儲存單元 預設是128m,乙個儲存單元的資料不能分成兩部分來儲存 block 備份 解決資料安...

大資料筆記

分類 利用資料學習模型或得到規則,用於 或者判定乙個輸入所屬的類,或者計算屬於某一類的概率 給定乙個輸入,所產生的輸出是乙個布林值。回歸 y g x w g 模型 w 引數 關鍵 確定損失函式,以及最小化損失函式的過程 梯度下降 隨機梯度下降 批量 梯度下降 給出損失函式f wx 目的是優化w使f ...

大資料學習筆記 1 1 了解大資料

三 bigtable 大表 nosql資料庫 hbase 首先引入兩個個大資料應用場景 從以上兩個例子可以引出大資料的兩個核心問題 資料的儲存 分布式的檔案系統 hdfs hadoop distributed file system 資料的計算 資料的計算 不是演算法 分布式的計算 mapreduc...