問題:為什麼傳統bi沒有達到今天網際網路資料應用的高度呢?
在之前的傳統bi可能因為這些因素,所以沒有達到今天的資料在高度,可能是網際網路本身發展的因素,資料對於網際網路企業價值。但其中有乙個很大的因素,可能是傳統的bi,更多是偏重資料倉儲的架構,根據需求來幫報表。在資料部門沒有一批主動去思考業務,思考業務與資料關係的人。這種人很可能都是在業務方,他們更多把業務問題轉為要看的報表,然後與資料部門溝通報表開發,資料部門收集需求溝通後,進行排期,進入比較慢長的等待期。
在乙個企業中,可能資料部門在乙個公司中組織架構中的位置,決定了部門的定位和一些做的事情,所以個人認為資料部門所處的組織架構對資料價值實現是乙個很重要因素。這也是今天我也來談一談的主題。
我先把資料部門分成二個部門:乙個我們就叫前端,例如:資料分析,資料探勘,資料產品等;乙個我們叫後端:資料倉儲,大資料平台等;
第一種形式,分布式
資料平台由技術部建設,技術沒有資料分析/業務分析人員;這部分人員都分到各個業務塊中。
技術部負責搭建大資料平台(在傳統主要叫資料倉儲)
目前大資料平台,如果比較大型的公司基本上會包括幾塊內容:
分布式:hadoop 平台;
實時計算: storm平台
記憶體計算:spark 平台
傳統關聯式資料庫
業務分析人員怎麼得到資料:
方式一:向資料平台介面人提需求,在傳統的bi部門中一定會有一種叫:需求分析/資料pd這種角度;這種角度就是把業務方的進行轉化,轉為prd文件,讓etl開發工程師,報表開發工程師實現 。【業務人員是沒有訪問資料倉儲的許可權的】
方式二:當一些業務方比較強勢,或者對響應速度比較有意見的時候,可能會開放所有或者部分給業務人員進行去訪問,業務可以自己去寫sql去取資料。
這種在一些業務變化不快,或者業務相對不那麼複雜的公司可能比較好。但是如果是一些業務複雜,業務變化非常快的可能就不適合。為什麼?
資料平台/倉庫建議跟不上業務變化。造成資料倉儲效率低,資料口徑混亂。因為資料倉儲架構離業務比較遠,對業務理解不深。
業務資料分析師很多人的知識不能很有效沉澱下來。
這會導致業務要求為各個業務建議自己 「資料集市」,當這種資料集市我的時候,又會造成資料倉儲負擔中,各個業務方的資料「各大自為政」。
最終公司資料混亂,後面大家對資料都搖頭。
第二種形式,集權式
就是公司所有的資料相關都歸到乙個部門中。業務方有任何需要都會向資料部門提出,資料部門會在內部對這些需求和報表進行溝通,避免重複開發,也便於對需求進行總結。
這種架構的好處是,所有的資料都是乙個部門出,相對來說資料的口徑會比較統一;
這個架構的壞處,如果部門組織的不好。會造成資料部門離業務比較遠 ;有時候對於資料的思考不夠深入,造成與業務部門的溝通成本上公升。同時會存在技術部的對於資料最底層平台建設的分工,造成與技術部存在一定溝通成本。
第三種:混合式
大資料平台建設由技術負責,他們核心是把資料平台建設的足夠強大。
有乙個比較大的資料部門,負責資料分析,挖掘,資料統一工作。一般來說這個部門會直接像管理層匯報,主要服務公司管理層;同時也會和業務方的資料分析師合作一起解決某個具體問題。
在業務方也會有自己的小資料分析團隊。這個資料團隊主要服務由自己這個業務團隊,同時也會和公司的資料部門有溝通和合作。【有的公司會向業務團隊開放資料訪問許可權,有的可能還是需要他們通過前端的報表獲取資料】
在這種情況下,可能存在主要問題是會"搶"活幹。
每個方式都有各自的優點與缺點,沒有對與錯之分;還是要結合公司具體的業務情況,公司規模等來決定,如果乙個公司的資料部門從小公司發展到大公司過程中組織架構都沒有什麼變化,可能這不是乙個適合有想法的資料人去的公司。哈哈
我個人觀點是:小公司適合分布式;公司發展中間階段:合適集權式;公司大的時候合適:混合式;
公司如何組建資料部門?三種資料部門架構優與劣
文 資料海洋 問題 為什麼傳統的沒有達到今天網際網路資料應用的高度呢?在之前的傳統bi可能因為這些因素,所以沒有達到今天的資料在高度,可能是網際網路本身發展的因素,資料對於網際網路企業價值。但其中有乙個很大的因素,可能是傳統的bi,更多是偏重資料倉儲的架構,根據需求來幫報表。在資料部門沒有一批主動去...
公司如何組建資料部門?三種資料部門架構優與劣
問題 為什麼傳統的沒有達到今天網際網路資料應用的高度呢?在之前的傳統bi可能因為這些因素,所以沒有達到今天的資料在高度,可能是網際網路本身發展的因素,資料對於網際網路企業價值。但其中有乙個很大的因素,可能是傳統的bi,更多是偏重資料倉儲的架構,根據需求來幫報表。在資料部門沒有一批主動去思考業務,思考...
tensorflow的三種資料輸入
tensorflow的資料讀取一共有三種方式 供給資料 feeding 在tensorflow程式執行的每一步,讓python 來供給資料 從檔案讀取資料 在tensorflow圖的起始,讓乙個輸入管線從檔案中讀取資料 預載入資料 在tensorflow圖中定義常量或變數來儲存所有資料 僅僅適用於資...