大資料4個明顯的特徵,大資料思維四個遞進的層次

2022-04-02 00:10:03 字數 1862 閱讀 9072

大資料4個明顯的特徵,大資料思維四個遞進的層次

大資料4個明顯的特徵:

1.資料量足夠大,要大到讓統計的結果具有非常高的置信度

2.具有多維度的特徵,而且各個維度最好是正交的

3.資料的完備性,完備性使得大資料可以算無遺策

4.在一些場景下的實時性,比如堵車資訊一定時間過了資料就失去意義了

--------

大資料思維四個遞進的層次:

第一層:從大量的、看似雜亂無章的資料點,總結出原來找不到的相關性。

第二層:不事先作假定,從大資料出發先得到結論,再分析原因。

第三層:利用大資料在準確把控巨集觀規律的同時,精確到每乙個細節。

第四層:用不同維度找到的強相關性可以取代因果關係。

--------------

大資料的4個明顯的特徵,即資料量大、多維度、完備性和在一些場景下的實時性。我們特別強調了光是資料量大還不能構成大資料,因為它可能無法得出有效的統計規律,而多維度的特徵則讓我們可以交叉驗證資訊,提高準確性。

--------------

首先,大資料要求資料量大,這一點大家沒有疑問。資料量小一定不符合大資料的原則。至於資料量多大合適,我們在前面介紹了置信度的概念,資料至少要大到讓統計的結果具有非常高的置信度。

其次,大資料需要具有多維度的特徵,而且各個維度最好是正交的。今天,**或者其他**,能夠有效地給你推薦產品,在很大程度上就是因為它不僅具有了你在網上購物的資料,而且還從其他渠道,包括在你不知不覺中,獲得了生活上的資訊。

比如,它可以根據你上網的行為,了解你的年齡、性別和教育背景,根據你晚上和白天的地點,了解你的工作地點和住址,甚至你的工作性質和生活習慣,比如是否經常出差,在什麼樣的飯店吃過飯,是否愛運動,是否使用名牌產品等等。

由於阿里巴巴資料收集的時間跨度比較長,它還可以看出人們消費習慣的變化。根據這些資訊,它就知道你是誰,需要什麼。在沒有大資料之前,這種事情很難做到。

大資料第三個重要特徵,是資料的完備性,它在過去常常被人忽略,因為人類過去使用資料,都是採用抽樣的辦法來獲取,根本不可能做到完備。抽樣統計有乙個問題,就是總有5%左右的小概率事件覆蓋不到,如果最後運氣不好,正好落在那5%,統計的方法就失去作用了。

今天情況就不同了,因為收集資料的裝置無所不在,我們也在有意無意向它輸送資料,因此獲得完備的資訊完全可能,這樣一來就堵住了採用資料作**的死角。

我們在前面講到提高名片識別率的方法,就是從網上抓取全部的企業和私人聯絡位址,拿它們和從名片識別出的資訊進行比對,就可以過濾掉幾乎所有的錯誤。這裡面其實就是用到了資料的完備性——也就是說,全部的位址、**等資料我都收集完備了。完備性使得大資料可以算無遺策。

除了上述三個特徵,很多時候大資料還需要具有實時性,因為在那些應用場景,一定時間過了,資料就失去意義了。

--------------

我們過去說,量變會帶來質變,那常常是在乙個維度上說的,而今天我們說大資料思維,已經超出了這一層含義,是一種全新的思維方式和做事情的方法。

今天大部分人所理解的大資料,是從大量的、看似雜亂無章的資料點,總結出原來找不到的相關性。在這個過程中各種資料如同百川入海一般匯聚到一起。我們在前面已經舉了不少這一類的例子。但這只是大資料思維的第一層含義。

我們需要強調的是,大資料思維和過去通過大量資料驗證一件事還是有區別的。那就是由於這些資料在產生和收集時是沒有特定目的的,因此怎樣使用它們,則需要視特定的應用而定。

比如google趨勢這個產品就用到了大資料,由於收集資料事先沒有目的性,從這些資料中能夠得到什麼結果事先也不知曉,這讓它發現了很多過去沒有想到的規律。

今天這種做法其實是先有了結果,再反推原因,是一種逆向的做法,但是正是因為有了足夠的資料支援,它無疑會比較快。不事先作假定,從大資料出發先得到結論,再分析原因,這是大資料思維的第二層。

因此,用不同維度找到的強相關性可以取代因果關係,這是大資料思維的第四個層次。

大資料思維

本週也沒有學習到什麼內容。跟自己相關的雲計算的課還排在週日。就俗一點,也來談談什麼是大資料思維。籠統地來說,是一種思維方式。也是一種考慮問題的邏輯結構。簡單一點來說,就是根據已知推斷未來的過程。複雜一點就是,根據大量的已知條件,通過相應的祛偽存真,然後根據這些條件去判斷我們所要知道的答案。舉乙個簡單...

大資料特徵

大資料特徵可歸納為 5v 3i 7 8 即 海 量資料規模 volume 高速資料流動 velocity 靈活資料體系 vitality 豐富資料型別 variety 潛在資料價值 value 資源成本投資 investments 技術理論與應用方案創新 innovation 自由開放的資料邏輯。較...

大資料 特徵工程

1 單變數特徵篩選 計算每乙個特徵與響應變數的相關性 工程上常用的手段有計算皮爾遜係數和互資訊係數,皮爾遜係數只能衡量線性相關性而互資訊係數能夠很好地度量各種相關性,但是計算相對複雜一些,好在很多toolkit裡邊都包含了這個工具 如sklearn的mine 得到相關性之後就可以排序選擇特徵了 2 ...