實時離散的資料分析

2021-07-14 06:58:48 字數 695 閱讀 5870

離散的資料分析指無法停止變化的多個資料來源進行分析!

例如商場有5個門,監控會紀錄實時的客流資料。

需求是某個時間點對這5個門的客流量進行排序?

傳統資料庫的做法是把這5個門的資料記錄在同乙個表內,在某個時間點時讀這個表進行排序。

這樣就好比有個上帝視角可以時間暫停,在暫停時間之後讀五個門的資料進行排序得到某個時間點的資料。

在實時執行的系統內這樣做顯然不可接受,當前只有5個門,如果有50個甚至500個甚至5000個,

那怕只是很短暫的暫停行為都不可接受。

回到物件導向的資料分析,就好比在每個門的邊上站著乙個保安,

我們作為乙個資料統計者要走到每個保安的面前才能獲得當前的資料。

把5個門的資料都訪問一圈之後得到當前流量的排序。

這裡也有乙個問題就是時間差的問題。

當把每個門都訪問一遍是需要時間的,當問第乙個門的時候是5點鐘,

問到第五個門的時候是5點半。

我們得到的排序是5點還是5點半的呢?

那麼就要求每個物件要根據時間記錄資料,每次資料改變的時候記錄時間。

這樣我們就可以知道在5點鐘的時候商場流量的準確排名。

在足夠龐大的資料來源面前,我們做為乙個物件,需要通過物件的視角來分析資料。

上帝視角或者時間暫停是一種解決辦法,也許是時候換一種更自然的方式思考問題

BI智慧型標籤實時大資料分析

傳統的bi工具是幫助使用者直接產生需要的統計圖表,而sunlightdb資料庫bi智慧型標籤,是幫助那些有bi系統開發,定製化需求的使用者,這些使用者不僅僅需要的是一張統計圖,他們需要的是統計圖背後的 程式,這些動態的 程式,需要植入到他們已有的系統當中,使其系統具有bi功能。sunlightdb通...

資料分析 資料分析的誤區

在資料分析的過程中,我們難免會走一些彎路,但有些彎路是可以避免的,下面我將介紹幾個資料分析過程中常見的誤區 我們一定都聽說過二戰中的乙個經典示例 軍方為了提高戰鬥機飛行員的生還率,打算在飛機上增加裝甲的厚度,但不能在所有部位加厚,這樣會喪失戰機的靈活性,於是軍方請了統計學家來研究,這些專家在一開始就...

資料分析 series字串離散化

問題 1 假設dataframe中有一列名為type,其字段中內容為a,b,c 等用,隔開的值,如 type a,b,c a,f,x b,c,e 統計type中每個型別出現的次數 並繪圖 import pandas as pd import numpy as np from matplotlib i...