傳統資料與大資料

2021-06-28 16:37:54 字數 1259 閱讀 3093

「問世間,大資料為何物,直教人眾說紛紜」。一本《big data》的書,掀起了大資料的浪潮,不管是it人士,還是**精英,都在議論大資料,春運大資料、出遊大資料、美食大資料、閱讀大資料……,那麼,大資料到底是什麼呢?難道量大、數大就是大資料嗎?如果是這樣,大資料就是炒舊飯了,殊不知電信領域無論從數量規模,還是從資料值在多年前就可以說是大資料了。

現在很多人都用4v來定義大資料,即volume(大量)、velocity(高速)、variety(多樣)、value(價值),但我認為這個定義並不足以將大資料與傳統資料區分開來,比如,電信的話單資料,就具備了上面的4個特徵,而你會認為這是大資料嗎?也許是吧。我現在理解的大資料,主要是針對傳統資料倉儲而言,傳統資料倉儲解決了企業內部資料孤島的問題,而大資料則是要將企業內部資料和企業外部資料打通,從而依據全面、綜合的資訊進行科學決策管理

首先,走向大資料是企業資訊化的必然趨勢。企業資訊化解決了業務流程計算機化的問題,提高了工作效率,但要想實現科學決策,除了業務本身的資訊外,還要參考更多的外部客觀影響因素,如巨集觀政策、市場動態、競爭對手等,這些資訊必須從企業外部去獲取,原來的bi或資料倉儲著重解決的是打通企業內部的資料孤島,整合內部資料,但並沒有將企業外部資料考慮進來,這就造成了決策的「盲區」,而大資料強調的正是「打通企業內部和企業外部的資料」,鼓勵企業盡其所能去收集和整合企業外部的資料,如社交**、監控資料等,從這些資料中提煉出有價值的知識,與企業內部的整合起來,實現科學合理的管理決策。乙個簡單的例子,若要實現熱播影視劇的推薦,只使用企業內部的點播資料,則不一定能在第一時間發現正在熱播的《武媚娘》,而從微博、朋友圈等資料中,則可以在較早期就發現流行趨勢並進行推薦。

其次,大資料的價值密度低,需要花費較大的成本去提煉。當前企業的資料主要是**於資訊系統,用於支撐企業的經營管理,以結構化資料為主。若把資料比做一座金山,那麼,資訊系統產生的資料就是「一粒粒的金沙」,其價值密度非常高,這是由於資訊系統中每乙個資訊項都是經過反覆斟酌之後才新增進去,新增乙個資訊項的研發和實施成本都很高,包含了大量的「乾貨」內容。而大資料中所強調的企業外部資料,主要有機器產生的資料和人自己產生的資料,前者一般是監控資料,後者包括微博、聊天等,資料中所含的雜質較多,必須使用相應的統計演算法去掉雜訊以提煉出有用的知識,這些演算法一般是專業的統計演算法,如回歸、聚集、分類等。此外,大資料正如其名所言,資料的規模一般都很大,產生的速度較快,需要的硬體資源和處理成本都較傳統的企業管理資訊要高,所以需要企業根據實際情況選擇性的進行收集和使用。

以上是我對大資料的一點思考。

2023年2月10日於北京

傳統金融的大資料應用與創新

隨著網際網路,特別是移動網際網路的不斷發展,網際網路金融正在給傳統金融業帶來不小的衝擊,不過,網際網路金融是否會對銀行等傳統機構構成威脅仍無法得出定論。但是,這並不表示銀行業可以忽視這股衝擊的浪潮,在這個大資料不斷壯大的時代,傳統金融業如何利用大資料來不斷創新與變革,如何借助大資料降低金融風險等,是...

當傳統企業遇上大資料

大資料絕對可以算得上當下的流行話題,購物要大數 出行要大數 看病要大數 上學要大數 好像什麼行業都能與大資料搭上邊,又似乎一切都可以大資料了。對於經歷過多年企業資訊化的傳統企業來說,大資料對於他們既清晰 又迷茫,他們有過資料倉儲 資料探勘 商業智慧型 bi 概念的洗禮,但又看不懂 大資料 與之前的概...

大資料與傳統BI的區別在哪?

大資料和商業智慧型bi已不是陌生的詞,但很多人都並不能很好區別這兩者之間的關係,為了更好理解兩者區別,我們大聖眾包威客平台分享一篇來自網路的文章,從多個角度維度 大資料和bi的區別!大資料與傳統bi是社會發展到不同階段的產物,我們從幾下幾個緯度來可以迅速的看出兩者的區別 第一 從資料 角度 大資料應...