大資料學習筆記 研究現狀

2021-07-11 09:20:40 字數 1634 閱讀 2084

大量、高速和多樣化的資訊;關注發現、分析、洞見和決策制定。

動態定價,其關鍵是收益管理。每個航班的上座率如果低於某個百分比,比如上座率低於50%,該航班肯定是虧損的。但是,如果你的航班太少,那麼你的顧客就會選擇競爭對手的航班。因此,很顯然,在收益管理方面,你可以做很多大資料分析。

大資料的另乙個維度是組合資料。組合資料,對我們自己來說可以是組合我們的日程、電子郵件、個人聯絡人資訊。

大資料的「大」不僅僅是指在乙個維度上的「大」,而是包括多樣性、組合和精煉。這就是為什麼我們要討論很多關於基礎設施、機器學習和資料探勘的內容。這些工具怎麼樣來幫助你們精煉資料,把訊號轉化成資料,把資料轉化成資訊,以及把資訊轉化成知識。這就是所謂的大資料。

資料獲取成本接近於0

資料儲存成本接近於0

如何組合這些資料,需要大資料技術

典型的企業中會有企業資料:crm客戶關係資料、erp資料、交易資料。然後是使用的使用者,使用者對產品如何反應。接下來是社交**。大多數人都生活在社交**的世界中。在社交**上,人們會發表對你產品的想法,對你競爭對手產品的想法。人們會上傳感測器資料、系統、日誌資料、公共資料。

大資料的「5v」

大資料基礎計算設施

由以上:獲取資料的成本趨近於0、組合資料的能力以及新工具的使用,促進大資料時代的來臨。

基礎設施:包括雲計算,hadoop,mapreduce、big table、資料中心、資料庫等

機器學習、知識挖掘和資料視覺化

工業應用:比如社會計算、城市計算、軟體分析、網路搜尋和資訊檢索,以及情感分析和意見挖掘。

以微軟大資料架構為例:

1. 最底層是感測器等物理裝置,收集和獲取資料

2. 基本管理層,用於管理底層物理裝置

3. 安全隱私層,需要考慮認證、使用者賬號、資料賬號

4. hadoop和yarn:yarn管理所有計算、儲存資源。在資源管理層上有傳統關係型資料庫、資料倉儲,處理結構化資料。也有hadoop、mapreduce和hdfs,它們主要處理非結構化資料。其中,nosql表示not-only-sql。

5. hive:非結構化資料的查詢處理和查詢優化,實時處理大資料量的流。

6. storm:高效計算;sqoop:在結構化和非結構化之間轉移資料;zookeeper:處理協調性的工作;pig指令碼語言:比mapreduce更高層的語言。

7. 分析引擎:無需考慮資料是否結構化,可以做統計分析,比如sas文字分析、搜尋引擎等。

8. 在最上層,大部分是給開發人員提供的建立協作和分享工具、自服務應用或者機器學習視覺化等。

會有很多新理論、新發現在可以預見的未來幾年裡被發現。現在有了所有這些基礎設施,大資料允許我們去做,甚至是以無所不在的方式做這些事情。不只是自然科學、社會科學,各種各樣的東西,實際上你們可以做,甚至是以純科學的方式。

大資料轉換,你獲得很大量的資料,你進行精煉,進行連線,然後進行融合。最後你將獲得我們所說的知識。整個事情就是關於把一些東西變得越來越精煉,最後獲得一些有深刻洞見的東西。

整個資料迴圈。資料收集,你們如何做攝取、抽取、轉換和載入載入到大資料儲存管理平台,結構化的和非結構化的。然後你可以開始做大資料分析和挖掘。然後你可以建模和**。一旦你真正有了發現,你可以公布你的發現,並把它視覺化並最終作為應用程式部署。在某種意義上,現在,天氣預報、pm 2.5預報,不管是什麼,在某種意義上都是大資料應用。

大資料學習筆記

大資料處理是雲計算中非常重要的領域,自google公司提出mapreduce分布式處理框架以來,以hadoop為代表的開源軟體受到越來越多公司的重視和青睞。本文將講述hadoop系統中的乙個新成員 impala。impala架構分析 impala是cloudera公司主導開發的新型查詢系統,它提供s...

大資料學習筆記 1 1 了解大資料

三 bigtable 大表 nosql資料庫 hbase 首先引入兩個個大資料應用場景 從以上兩個例子可以引出大資料的兩個核心問題 資料的儲存 分布式的檔案系統 hdfs hadoop distributed file system 資料的計算 資料的計算 不是演算法 分布式的計算 mapreduc...

大資料學習筆記1

文件分類 通常文件中最常出現的詞都是無意義的常用詞,而關於主題的詞語通常出現的並不多,但又不是所有少見的詞都有用。1.找出跟主題相關的重要詞彙 2.計算tf.idf,度量給定詞語在少數文件中反覆出現程度的形式化指標稱為tf.idf term frequency,inverse document fr...