大資料概述(二)

2021-10-25 06:45:27 字數 1554 閱讀 3635

1.資料量大(volume):儲存大,計算量大;

1.資料型別樣多(variety):**多,格式多;

3.處理速度快(velocity): 生成速度快,處理速度要求快。

4.價值密度低(value):價值密度低,和資料總量的大小成反比。

2023年,已故的圖靈獎得主吉姆·格雷(jim gray,資料庫基本理論的奠基人)提出了資料密集型科研"第四正規化"(the fourth paradigm)。

1.第一種正規化:實驗科學

在最初的科學研究階段,人類採用實驗來解決一些科學問題,著名的比薩斜塔實驗就是乙個 典型例項。1590 年,伽利略在比薩斜塔上做了「兩個鐵球同時落地」的實驗,得出了重量不同的 兩個鐵球同時下落的結論,從此推翻了亞里斯多德「物體下落速度和重量成比例」的學說,糾正 了這個持續了 1 900 年之久的錯誤結論。

2.第二種正規化:理論科學

實驗科學的研究會受到當時實驗條件的限制,難以完成對自然現象更精確的理解。隨著科學 的進步,人類開始採用各種數學、幾何、物理等理論,構建問題模型和解決方案。比如,牛頓第 一定律、牛頓第二定律、牛頓第三定律構成了牛頓力學的完整體系,奠定了經典力學的概念基礎, 它的廣泛傳播和運用對人們的生活和思想產生了重大影響,在很大程度上推動了人類社會的發展 與進步。

3.第三種正規化:計算科學

隨著 1946 年人類歷史上第一台計算機 eniac 的誕生,人類社會開始步入計算機時代,科學 研究也進入了乙個以「計算」為中心的全新時期。在實際應用中,計算科學主要用於對各個科學 問題進行計算機模擬和其他形式的計算。通過設計演算法並編寫相應程式輸入計算機執行,人類可 以借助於計算機的高速運算能力去解決各種問題。計算機具有儲存容量大、運算速度快、精度高、 可重複執行等特點,是科學研究的利器,推動了人類社會的飛速發展。

4.第四種正規化:資料密集型科學

隨著資料的不斷累積,其寶貴價值日益得到體現,物聯網和雲計算的出現,更是促成了事物

發展從量變到質變的轉變,使人類社會開啟了全新的大資料時代。這時,計算機將不僅僅能做模擬**,還能進行分析總結,得到理論。在大資料環境下,一切將以資料為中心,從資料中發現問題、解決問題,真正體現資料的價值。大資料將成為科學工作者的寶藏,從資料中可以挖掘未

知模式和有價值的資訊,服務於生產和生活,推動科技創新和社會進步。雖然第三種方式和第四

種方式都是利用計算機來進行計算,但是二者還是有本質的區別的。在第三種研究正規化中,一般是先提出可能的理論,再蒐集資料,然後通過計算來驗證。而對於第四種研究正規化,則是先有了

大量已知的資料,然後通過計算得出之前未知的理論。

資料採集,資料儲存,資料處理/分析/挖掘,批處理計算,流計算,圖計算,查詢分析計算視覺化

1.資料是需求,雲計算是解決之道。

2.計算是平台,大資料是應用。

巨量資料的應用範例包括大科學、rfid、感測裝置網路、天文學、大氣學、交通運輸、基因組學、生物學、大社會資料分析、網際網路檔案處理、製作網際網路搜尋引擎索引、通訊記錄明細、軍事偵查、金融巨量資料,醫療巨量資料,社群網路、通勤時間**、醫療記錄、**影象和影像封存、大規模的電子商務等

大資料概述

1.試述大資料對思維方式的重要影響。全樣而非抽象 過去,由於資料儲存和處理能力的限制,在科學分析中,通常採用抽樣的方法,即從全集資料中抽取一部分樣本資料,再通過樣本資料的分析來推斷出全集資料的特徵。如今,有了大資料的支援,科學分析完全可以直接針對全集資料而不是抽樣資料,並且可以在短時間內迅速得到分析...

大資料概述

大資料 大資料 big data it行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。所謂 面向集合 collection oriented 意思是資料被分組儲存在資料集...

大資料概述

1.試述大資料對思維方式的重要影響。隨著科技的發展和人們對資料的需求日益增大,大資料時代正步入網際網路世界的主流道路上。以往網際網路資料或個人資料,或多或少存在著侷限性,資料潛在的價值並沒有被很好的利用。大資料技術收集了專案的大量相關資料,加以分析,得到許多內在問題或找到最優的解決方案,提公升了資料...